Las oportunidades de la transmisión de datos masivos

Para aprovechar al completo las oportunidades sociales y comerciales que ofrecen las tecnologías inteligentes es necesario contar con un método nuevo con el que procesar datos masivos, una tarea a la medida del proyecto FERARI.

Economía digital

Las tecnologías de procesamiento de datos masivos suelen estar especializadas en datos generados por humanos mediante sistemas web como por ejemplo Facebook. Por tanto, el método estándar consiste procesar lotes de datos almacenados en sistemas de archivos distribuidos. No obstante, con las tecnologías «inteligentes» como las comunicaciones entre automóviles, son muchos más los datos generados en las interacciones entre máquinas (M2M) que los que generan los humanos. Es necesario contar con un método nuevo que pueda ampliarse fácilmente a escala global, veloz y sencillo de utilizar para legos, y que además pueda realizar tareas analíticas complejas en tiempo real con fuentes de datos distribuidos. El proyecto financiado con fondos de la Unión Europea FERARI se creó para desarrollar un sistema específico de estas características. Una arquitectura potente, modular y elástica Uno de los retos más importantes a la hora de procesar datos M2M es la generación de flujos de datos continuos de gran volumen, lo que impide su almacenamiento. Esto implica que los datos temporales suelen procesarse sobre la marcha, sin que lleguen a almacenarse. Incluso si los datos pudiesen enviarse a una central (o a un sistema en la nube) se encontrarían con diversos cuellos de botella en la red que provocarían retrasos y generarían costes adicionales. Es muy probable además que estos obstáculos se agraven al aumentar los sensores que obtienen los datos. La respuesta del proyecto fue desglosar este planteamiento en un conjunto de objetivos relacionados. En primer lugar, cultivar «procesamiento in situ», descrito por el Dr. Michael Mock, coordinador del proyecto, como «el procesamiento del flujo de datos que tiene lugar cerca de donde se generan los datos para así evitar retrasos y congestiones en la red». Además se adoptó un método de procesamiento de eventos complejos (Complex Event Processing, CEP). La extracción de datos de distintas fuentes permite detectar patrones e identificar situaciones (eventos) predeterminadas que activan respuestas programadas inmediatas. La combinación de tecnología CEP con procesamiento in situ fue uno de los mayores retos para los integrantes del proyecto. Tal y como explicó el Dr. Mock: «La tecnología CEP existente no está diseñada para ejecutarse en sistemas de datos masivos distribuidos, sino en ordenadores individuales por lo general de gran potencia». La propuesta del proyecto fue ejecutar el motor CEP (con la tecnología de procesamiento Proton de IBM) con la plataforma de transmisión de datos masivos Apache Storm. Además, desarrolló un «Planificador de consultas» (Query Planner) que optimiza el motor CEP para convertir una «expresión» CEP única y general en un conjunto de expresiones CEP que puedan distribuirse mediante el sistema FERARI para su evaluación. Para dotar de flexibilidad a la arquitectura de FERARI, se optó por una configuración modular en la que los componentes del marco pueden separarse de la plataforma de transmisión de datos masivos. De este modo, el marco puede adaptarse a cualquier plataforma. Desde el ensayo de escenarios al aprendizaje automático El método de FERARI se empleó en dos escenarios de pruebas complicados: el análisis de fraudes en las redes de telecomunicaciones de telefonía móvil y la vigilancia sanitaria en tiempo real en nubes y grandes centros de procesamiento de datos. Tal y como concluyó el Dr. Mock: «Los escenarios se evaluaron con datos reales. Por ejemplo, se mostró con registros de telefonía móvil anonimizados, ofrecidos por el socio del proyecto HT Croatian Telekom, que el sistema de FERARI es capaz de detectar fraudes con una latencia inferior al segundo. [...] Estos logros permitirán a la industria europea crear productos en distintos dominios de aplicación en los que es fundamental evaluar y controlar enormes cantidades de datos generados de forma continua como en la Internet de las Cosas o la industria 4.0». El marco de FERARI se ha publicado como código abierto con contenedores de software Docker para facilitar su instalación en cualquier máquina, desde un ordenador personal a un clúster o un sistema en la nube, y de esta forma invitar tanto a científicos como empresas a examinarlo y utilizarlo. El equipo también creó una guía para explicar su instalación y empleo y creó un ejemplo de ejecución. A pesar de la superioridad de este sistema por encima de otras tecnologías, todavía precisa del trabajo de expertos para crear las normas algorítmicas. De cara al futuro, el Dr. Mock indicó lo siguiente: «Otro progreso será aprender normas relevantes a partir de los datos mediante técnicas de aprendizaje automático y también para la configuración de los métodos de procesamiento in situ. Ahora queremos trabajar en este sentido».