Aprendizaje a partir de datos masivos, estructurados y anotados incompletamente

Tanto si se trata de bases de datos de ADN como de redes sociales en línea o granjas solares, los datos masivos se utilizan con el fin de entrenar a sistemas de inteligencia artificial para solucionar problemas del mundo real. Pero enormes hojas de datos o flujos de datos a gran velocidad no siempre generan información con la que puedan tratar los sistemas de aprendizaje de máquinas. El software inteligente desarrollado por el proyecto MAESTRA pretende solucionar esta cuestión.

Economía digital

En la actualidad, la inteligencia artificial (IA) está en boga, ya que sus hitos estelares en juegos, reconocimiento de voz y diagnósticos de salud aparecen con regularidad en los titulares. Sin embargo, construir un sistema de aprendizaje no es tan fácil como la cobertura de algunos medios podría sugerir: la tecnología de aprendizaje de máquinas que subyace en el corazón de la IA se enfrenta a tareas difíciles desde el punto de vista de la computación en muchísimas aplicaciones. Uno de los principales motivos de ello es que los datos con los que funcionan dichos sistemas proceden de muchas fuentes dispares, como vídeo, ADN, imágenes médicas, sensores o redes sociales, así que no siempre se pueden moldear en los formatos bien estructurados que necesitan los sistemas de aprendizaje de máquinas (AM) para poder realizar un aprendizaje lo suficientemente bueno como para realizar predicciones útiles y precisas cuando se les introduzcan datos nuevos sin procesar. Por ejemplo, para entrenar modelos predictivos, a menudo los ingenieros de software necesitan manipular datos no etiquetados (o etiquetados solo parcialmente) con los valores que se desea predecir; conjuntos de datos masivos, inmanejables o con tasas de trasferencia tan elevadas que superan la capacidad del sistema; o datos que se generan de forma concurrente mediante sensores que pertenecen a una red extensa y distribuida en el espacio. Además de esta complejidad, a veces, los datos pueden tener una combinación de algunas o todas estas propiedades, lo cual dificulta en extremo la minería de datos eficiente. Es hora de dar sentido a los datos «La presencia simultánea de varias de estas complejidades en los datos es un desafío difícil y actualmente insuperable que, además, limita gravemente la aplicabilidad de los enfoques de aprendizaje de máquinas y minería de datos», explica Sašo Džeroski, del Instituto Jozef Stefan de Liubliana (Eslovenia). En consecuencia, Džeroski, coordinador del proyecto MAESTRA, financiado por la Unión Europea, y sus colegas en Croacia, Italia, Macedonia y Portugal, han trabajado para ordenar esta situación tan enredada en la minería de datos. Después de analizar los problemas de la minería de datos complejos minuciosamente, diseñaron métodos de aprendizaje de máquinas basados en árboles y en reglas y desarrollaron software inteligente capaz de abordar conjuntos masivos de datos, o flujos de datos, incluso datos sin etiquetar en absoluto y datos de red, y darles sentido. Ahora, la mayoría de los métodos desarrollados pueden realizar predicciones complejas, como sobre valores de distintas variables de datos a la vez. Y esto no es solo teoría: para demostrar que sus métodos de software funcionan, el equipo de MAESTRA también los ha probado con éxito en varios problemas representativos de distintos campos. Éxito en los genes Los métodos de minería de datos de MAESTRA se aplicaron a conjuntos de datos de genómica que contenían secuencias de ADN de organismos individuales y distintas comunidades de ellos, como la flora intestinal humana. Los sistemas de AM pudieron analizar los datos genómicos complejos tan minuciosamente que pudieron predecir con éxito las funciones de genes de miles de especies bacterianas tan solo a partir de datos derivados de sus secuencias de ADN. También predijeron los fenotipos de microorganismos a partir de sus genotipos e incluso identificaron compuestos que podrían ayudar a tratar la tuberculosis y la salmonella. En el terreno de la energía solar, los métodos de MAESTRA se utilizaron para ayudar a los sistemas de AM a predecir tanto la producción como el consumo de energía a partir de distintos tipos de datos de sensores en distintos contextos, como la producción de energía solar en centrales eléctricas fotovoltaicas y el consumo de energía solar para calefactar el vehículo orbital Mars Express. Además, el equipo de Džeroski predijo tanto los fallos en equipos ferroviarios como la demanda de taxis a partir de conjuntos de datos de transporte. También mejoró la precisión del análisis de sentimientos y la anotación de imágenes en redes sociales. Aplicaciones listas para proliferar Muchos de los métodos de minería de datos de uso general desarrollados en MAESTRA ya son de código abierto, pero Džeroski espera que varios de ellos se aprovechen en proyectos de IA comerciales, ya que hay organizaciones personalizándolos para ciertas aplicaciones y añadiéndoles sus propias interfaces de usuario. «Esto permitirá a los socios de MAESTRA desarrollar productos secundarios en forma de herramientas y servicios más fáciles de usar para clientes potenciales», explica. Džeroski sugiere que las empresas farmacéuticas, podrían utilizar herramientas personalizadas de MAESTRA con el fin de utilizar la IA para identificar nuevas aplicaciones de fármacos antiguos, es decir, para hallar nuevas indicaciones. Como parte de la investigación, que continúa, se están aprovechando las ideas de MAESTRA en proyectos que utilizan el aprendizaje de máquinas para estudiar las funciones de los genes y la salud, la mutación de tumores, la medicina personalizada, la informática del cerebro, la producción sostenible de alimentos y la biodiversidad.