Comment exploiter des données massives, incomplètement annotées et structurées

Qu'il s'agisse de bases de données d'ADN, de réseaux sociaux en ligne ou de fermes solaires, le Big Data est utilisé pour entraîner des systèmes d'intelligence artificielle à résoudre des problèmes réels. Mais ces vastes ensembles de données, ou des flux de données rapides, ne produisent pas toujours les informations sous une forme directement exploitable par les systèmes d'apprentissage automatique. Le logiciel intelligent développé par le projet MAESTRA vise à résoudre ce problème.

Économie numérique

Pour ses remarquables capacités en matière de jeu, de reconnaissance vocale et de diagnostic médical, l'intelligence artificielle fait régulièrement les gros titres. Mais la conception de ces systèmes d'apprentissage n'est pas aussi simple que ce que pourrait suggérer le traitement qu'en font les médias: pour un grand nombre d'applications, la technologie d'apprentissage automatique au cœur de l'IA est confrontée à des tâches difficiles à informatiser. Une raison majeure à cela est que les données traitées par ces systèmes proviennent de nombreuses sources disparates, comme des vidéos, de l'ADN, des images médicales, des capteurs ou des réseaux sociaux. Elles ne peuvent donc pas se couler dans les formats bien structurés dont les systèmes d'apprentissage automatique ont besoin afin d'être suffisamment entraînés pour réaliser des prévisions utiles et précises à partir de nouvelles données brutes. Par exemple, pour entraîner les modèles de prévision, les ingénieurs logiciels ont souvent besoin de traiter des données non annotées (ou seulement partiellement annotées) avec les valeurs à prévoir; des ensembles de données massifs, difficiles à manier, ou des flux à des débits trop élevés pour pouvoir les traiter; ou des données générées de façon concurrente par des capteurs dans un réseau de grande taille réparti dans l'espace. Pour ajouter à cette complexité, les données peuvent parfois comporter une combinaison de certaines ou de toutes ces propriétés, ce qui rend leur extraction extrêmement ardue. Il est temps de donner un sens aux données «La présence simultanée de plusieurs de ces complexités liées aux données représente un défi considérable, actuellement insurmontable, qui limite considérablement l'utilisation des approches par apprentissage automatique et data mining», déclare Sašo Džeroski de l'Institut Jozef Stefan à Ljubliana, en Slovénie. Aussi M. Džeroski, coordinateur du projet MAESTRA, financé par l'UE, et ses collègues de Croatie, d'Italie, de Macédoine et du Portugal se sont-ils efforcés de remédier à cette difficulté à laquelle est confronté le data mining. Après avoir analysé en détail les problèmes liés à l'exploitation de données complexes, ils ont mis au point des méthodes d'apprentissage automatique arborescentes et à base de règles et développé des logiciels intelligents capables de traiter et de donner du sens à des ensembles ou des flux massifs de données, comprenant des données incomplètement annotées et des données réseau. La majorité des méthodes mises au point par ces chercheurs permettent maintenant de réaliser des prévisions complexes, telles que les valeurs de plusieurs variables de données simultanément. Et ce n'est pas qu'une théorie: pour prouver que ses méthodes logicielles fonctionnent, l'équipe de MAESTRA les a testées avec succès sur un certain nombre de problèmes illustratifs dans divers domaines. Le succès est dans les gènes Les méthodes de data mining de MAESTRA ont été appliquées à des ensembles de données génomiques contenant des séquences d'ADN provenant à la fois d'organismes individuels et de diverses communautés vivantes, comme la flore intestinale humaine. L'analyse de ces données génomiques complexes par les systèmes d'apprentissage automatique a été si performante qu'ils ont pu prévoir avec succès les fonctions des gènes pour des milliers d'espèces de bactéries, uniquement à partir de données dérivées de leurs séquences d'ADN. Ils ont également prédit les phénotypes de micro-organismes à partir de leurs génotypes et identifié des composants qui pourraient contribuer à traiter la tuberculose et la salmonellose. Dans le domaine de l'énergie solaire, les méthodes de MAESTRA ont été utilisées pour aider les systèmes d'apprentissage automatique à prévoir dans différents contextes la production et la consommation d'énergie en exploitant les données de divers types de capteurs, comme la production d'énergie solaire dans les centrales photovoltaïques ou la consommation d'énergie solaire nécessaire pour chauffer l'orbiteur Mars Express. À partir de données de transport, l'équipe de M. Džeroski a également pu prévoir des pannes d'équipements ferroviaires et la demande en taxis. Elle a également amélioré la précision de l'analyse de sentiment et de l'annotation d'image dans les réseaux sociaux. De très nombreuses applications Un grand nombre des méthodes de data mining à usage général mises au point par MAESTRA ont déjà été publiées en open source, mais M. Džeroski s'attend cependant à ce que plusieurs d'entre elles soit exploitées par des projets commerciaux d'IA. Des entreprises les adapteront à des applications particulières et y ajouteront leurs propres interfaces utilisateur. «Les partenaires de MAESTRA pourront ainsi développer des produits secondaires sous la forme d'outils et de services plus faciles à utiliser par les clients potentiels», ajoute-t-il. M. Džeroski pense que les sociétés pharmaceutiques pourraient utiliser des outils MAESTRA personnalisés pour permettre à l'IA d'identifier de nouvelles utilisations aux médicaments anciens, c'est-à-dire pour la réutilisation de ces médicaments. Dans le cadre d'autres recherches en cours, les idées de MAESTRA sont également exploitées par des projets utilisant l'apprentissage automatique pour étudier la fonction et la santé des gènes, les mutations des tumeurs, la médecine personnalisée, la production durable d'aliments et la biodiversité.