Apprendere dai dati massicci, non completamente annotati e strutturati

Che derivino da banche dati del DNA, da reti sociali online o da parchi solari, i megadati vengono usati per istruire i sistemi di intelligenza artificiale a risolvere problemi del mondo reale. Ma i grandi insiemi di dati, o flussi di dati veloci, non sempre producono informazioni in forma tale da poter essere elaborati dai sistemi di apprendimento automatico. Un software intelligente sviluppato dal progetto MAESTRA intende risolvere la questione.

Economia digitale

L’intelligenza artificiale è attualmente un tema scottante, che appare regolarmente sui media in riferimento al gaming stellare, al riconoscimento vocale e alla diagnostica medica. Ma costruire sistemi di apprendimento non è così facile come spesso presentato dai media: la tecnologia di apprendimento automatico che è al centro dell’IA affronta compiti informatici difficili in moltissime applicazioni. Ciò è dovuto principalmente al fatto che i dati di tali sistemi provengono da molte fonti diverse – come video, DNA, immagini mediche, sensori o reti social – e che quindi non sempre possono essere fusi nei formati ben strutturati di cui hanno bisogno i sistemi di apprendimento automatico (machine learning, ML) se vogliono essere istruiti per fare previsioni utili e precise quando ricevono nuovi dati. Ad esempio, per istruire i modelli predittivi, gli ingegneri di software spesso devono manipolare dati che non sono etichettati (o solo in parte etichettati) con i valori da prevedere: serie di dati che sono massicci, ingombranti o con flussi troppo veloci per essere gestiti, oppure dati che vengono simultaneamente generati da sensori in reti estese e distribuite nello spazio. A complicare il tutto, i dati possono a volte presentare una combinazione di alcune o tutte queste caratteristiche, rendendo l’estrazione dei dati estremamente difficile. È ora di dare un senso ai dati “La presenza simultanea di diverse di queste complessità dei dati è una sfida difficile e attualmente insormontabile, che limita notevolmente l’applicabilità di soluzioni di apprendimento automatico e di data mining,” dice Sašo Džeroski, dell’Istituto Jozef Stefan di Lubiana, Slovenia. Džeroski, coordinatore del progetto MAESTRA, finanziato dall’UE, e i suoi colleghi in Croazia, Italia, ex Repubblica jugoslava di Macedonia e Portogallo hanno quindi lavorato per mettere ordine in questa situazione confusa del data mining. Dopo aver analizzato i problemi dell’estrazione di dati complessi in dettaglio, hanno progettato metodi di apprendimento automatico tree-based e rule-based, e hanno sviluppato software intelligente in grado di elaborare serie massicce di dati, o flussi di dati, compresi i dati etichettati in modo incompleto e i dati di rete, e di dare loro un senso. La maggior parte dei metodi da loro sviluppati possono adesso fare previsioni complesse, come i valori di diverse variabili dei dati simultaneamente. E non si tratta soltanto di teoria: per dimostrare che i loro metodi di software funzionano, il team MAESTRA è anche riuscito a verificarli su una serie di problemi “showcase” in diversi campi. Il successo è nei geni I metodi di estrazione dei dati MAESTRA sono stati applicati a set di dati genomici contenenti sequenze di DNA sia di organismi individuali sia di diverse comunità di essi, come ad esempio la flora intestinale umana. I dati genomici complessi sono stati analizzati talmente bene dai sistemi ML che sono riusciti a prevedere le funzioni dei geni in migliaia di specie batteriche dai dati derivati soltanto dalle loro sequenze DNA. Hanno anche previsto i fenotipi di micro-organismi partendo dai loro genotipi e identificato composti che potrebbero aiutare nel trattamento della tubercolosi e della salmonella. Nel settore dell’energia solare, i metodi MAESTRA sono stati usati per aiutare i sistemi ML a prevedere sia la produzione che il consumo di energia da diversi tipi di dati dei sensori in vari contesti, come la produzione di energia solare negli impianti fotovoltaici e il consumo di energia solare per riscaldare l’orbiter Mars Express. Inoltre, il team di Džeroski ha previsto sia i guasti delle apparecchiature dei treni, sia le richieste di taxi, partendo dai dati relativi ai trasporti. Ha anche migliorato la precisione dell’analisi del sentimento e l’annotazione delle immagini nei social network. Le applicazioni sono destinate a proliferare Molti dei metodi di estrazione dei dati per scopi generali sviluppati da MAESTRA sono già stati resi disponibili come open source, ma Džeroski si attende comunque che alcuni saranno utilizzati in progetti IA commerciali, con le organizzazioni che li adatteranno per applicazioni specifiche aggiungendo le proprie interfacce. “Questo permetterà ai partner MAESTRA di sviluppare prodotti secondari sotto forma di strumenti e servizi più semplici da utilizzare per i potenziali clienti,” ha detto. Secondo Džeroski, le aziende farmaceutiche potrebbero utilizzare gli strumenti MAESTRA personalizzati per permettere all’IA di individuare nuove applicazioni per i farmaci esistenti, ad es. per la rifinalizzazione dei farmaci. Nelle ulteriori attività di ricerca, le idee di MAESTRA vengono inoltre utilizzate in progetti che impiegano l’apprendimento automatico per lo studio della funzione dei geni e della salute, la mutazione tumorale, la medicina personalizzata, l’informatica del cervello, la produzione alimentare sostenibile e la biodiversità.