La evaluación comparativa de datos masivos vinculados gana terreno en la industria

Para que los «datos masivos vinculados» sean una solución financiable para la industria es necesario disponer de las herramientas de evaluación comparativa adecuadas, a fin de garantizar que las soluciones desarrolladas cumplen los requisitos de los casos de uso. Dichas herramientas ya están disponibles gracias al trabajo realizado en el marco del proyecto HOBBIT.

Economía digital

¿Ha oído hablar alguna vez de los datos vinculados? En caso negativo, es probable que debiera haberlo hecho o que lo haga pronto. Al igual que los datos masivos son una evolución de la extracción de datos, los datos vinculados son una evolución de la web semántica, que es la piedra angular de la web 3.0: un internet en el que toda la información está categorizada de tal forma que los ordenadores y las personas se igualan en su capacidad de entenderlo. En breve, los datos vinculados consisten en usar la web para conectar datos relacionados que antes no estaban conectados. La industria ya usa los datos vinculados, pero su integración con los datos masivos se ha visto impedida hasta el momento por el coste y la dificultad de utilizar estos últimos en una cadena de valor. Los «datos masivos vinculados» se enfrentan a obstáculos relacionados con la falta de aplicaciones estandarizadas de los indicadores de rendimiento –lo que hace difícil decidir qué herramienta usar y cuándo utilizarla– y el hecho de que algunas de las dimensiones de los datos masivos (velocidad, volumen, variedad, veracidad, valor) no están bien tratadas con las herramientas actuales. «Por ejemplo, gestionar billones de triples RDF (nota del editor: un conjunto de tres entidades que codifica una declaración sobre datos semánticos en forma de expresiones sujeto-predicado-objeto, tales como "John Doe adora CORDIS") sigue siendo un problema importante desde el punto de vista del volumen», explica el doctor Axel Ngonga de la Universidad de Paderborn y el Instituto de Informática Aplicada de Leipzig. «Además, las diferentes unidades semánticas secuenciales y la falta de escalabilidad de las soluciones existentes hacen que el procesamiento de la secuencia semántica a escala constituya un auténtico reto (por la cuestión de la velocidad). Finalmente, los enfoques actuales de datos estructurados a menudo no se escalan a bases grandes de conocimientos, lo que dificulta la detección de información (valor)». El doctor Ngonga ha dirigido un consorcio de nueve socios en el marco del proyecto HOBBIT (Holistic Benchmarking of Big Linked Data) para abordar estos problemas. Centrándose en el sector 4.0 –gestión de datos geoespaciales, ciudades inteligentes y gestión informática– el equipo llevó a cabo encuestas con más de cien participantes antes y durante el proyecto para determinar las áreas clave de la evaluación comparativa de los datos vinculados. «Nuestras encuestas sugieren que las familias de evaluaciones comparativas que creamos se ocupan de algunos de los dominios clave de interés de las empresas y los investigadores europeos», explica. HOBBIT ha creado un total de cinco familias de evaluación comparativa para evaluar el software actual: extracción de conocimiento, almacenamiento, control de versiones, vinculación y aprendizaje automático y respuestas automáticas a preguntas. En el almacenamiento, averiguaron que el motivo por el que algunas soluciones funcionaron mejor era que los resultados que devolvieron eran parcialmente incompletos. Solo esto demuestra que la evaluación comparativa de HOBBIT incluye aspectos que antes no se habían considerado y que es necesario realizar evaluaciones comparativas de todos los datos vinculados. Otros descubrimientos incluyen el hecho de que aún se necesitan soluciones fácilmente distribuibles para la extracción de conocimiento; que el control de las versiones tiene poco respaldo y requiere un estándar; que las plataformas abiertas de preguntas y respuestas aún funcionan mal por su cuenta; y que los algoritmos de aprendizaje automático específicos de los datos vinculados no se escalan demasiado bien. En este contexto, HOBBIT ofrece la primera evaluación comparativa abierta, escalable y basados en FAIR (resultados encontrables, factibles, interoperables y recuperables,) para los datos vinculados: «La plataforma HOBBIT es la primera evaluación comparativa genérica escalable para los datos masivos vinculados. Entre sus aspectos más innovadores se incluyen: la evaluación comparativa distribuida de sistemas distribuidos; su naturaleza portable para la evaluación comparativa, tanto localmente como en entornos distribuidos; una instalación de un comando, tanto localmente como en Amazon Web Services; la reutilización de los estándares para lograr la máxima interoperabilidad y flexibilidad; e interfaces claramente definidas para una adaptación sencilla a otros tipos de datos y casos de uso», afirma el doctor Ngonga. La plataforma ha sido bien recibida por el sector, con unos cuarenta clones creados cada mes y algunos socios industriales dispuestos a aceptar servicios de evaluación comparativa internamente para mejorar la calidad de sus herramientas. El proyecto HOBBIT no terminará hasta noviembre, ya que actualmente se está llevando a cabo una segunda ronda de evaluaciones comparativas. La asociación creada en el marco del proyecto tomará entonces el relevo, haciendo de centro de actividad para las evaluaciones comparativas en Europa, apoyando el desarrollo continuado de la plataforma HOBBIT y de marcos similares para la evaluación comparativa, así como prestando servicios de evaluaciones comparativas a partes interesadas europeas.

Palabras clave

HOBBIT, datos masivos, datos vinculados, web semántica, web 3.0, evaluación comparativa

Holistic Benchmarking of Big Linked Data

La evaluación comparativa de datos masivos vinculados gana terreno en la industria

Palabras clave

Descubra otros artículos del mismo campo de aplicación

Compartir esta página

Descargar