Le benchmarking du Web des mégadonnées gagne du terrain dans l’industrie

Faire du «Web des mégadonnées» une solution rentable pour l’industrie nécessite des outils de benchmarking appropriés pour s’assurer que les solutions développées répondent aux exigences d’utilisation. Ces outils sont désormais disponibles grâce aux travaux menés dans le cadre du projet HOBBBIT.

Économie numérique

Avez-vous déjà entendu parler du Web des données? Si la réponse est non, vous auriez probablement dû ou cela ne saurait tarder. Tout comme les mégadonnées sont une évolution de l’exploration de données, le Web des données est une évolution du Web sémantique, qui est lui-même la pierre angulaire du Web 3.0 un Internet où toutes les informations sont classées par catégories pour que les ordinateurs et les humains soient égaux dans leur capacité à le comprendre. En résumé, le Web des données consiste à utiliser le Web pour relier des données connexes qui ne l’étaient pas auparavant. Le secteur utilise déjà le Web des données, mais son intégration avec les mégadonnées était jusqu’à présent entravée par le coût et la difficulté d’utiliser ces dernières dans une chaîne de valeur. Le «Web des mégadonnées» se heurte à des obstacles liés, d’une part, à l’absence de mise en œuvre normalisée des indicateurs de performance, ce qui rend difficile de décider quel outil utiliser et quand l’utiliser et, d’autre part, au fait que certaines dimensions des mégadonnées (célérité, volume, variété, véracité, valeur) ne sont pas bien prises en charge par les outils existants. «Par exemple, la gestion de milliards de triplets RDF (ndlr: un ensemble de trois entités qui codifie une déclaration sur les données sémantiques sous la forme d’expressions sujet-prédicat-objet, comme “John Doe aime CORDIS”) reste un problème majeur en termes de volume», explique le Professeur Dr Axel Ngonga de l’Université Paderborn et de l’Institut d’informatique appliquée de Leipzig. «En outre, les différentes sémantiques de streaming et le manque d’évolutivité des solutions existantes rendent le traitement sémantique des flux à l’échelle plutôt difficile (problème de célérité). Enfin, les approches d’apprentissage actuelles pour les données structurées n’évoluent souvent pas vers de grandes bases de connaissances, ce qui rend difficile la détection des idées (valeur)». Un consortium de neuf personnes, dirigé par le Dr Axel Ngonga dans le cadre du projet HOBBBIT (Holistic Benchmarking of Big Linked Data) s’est attelé à ces problèmes. En se concentrant sur l’industrie 4.0 la gestion des données géospatiales, les villes intelligentes et la gestion des TI, l’équipe a mené des enquêtes auprès de plus de 100 participants avant et pendant le projet afin de déterminer les domaines clés pour l’analyse comparative du Web des mégadonnées. «Nos enquêtes indiquent que les familles de benchmarking que nous avons créées abordent certains des principaux domaines d’intérêt pour les entreprises et les chercheurs européens», a-t-il expliqué. HOBBBIT a créé un total de cinq familles de benchmarking pour évaluer les logiciels actuels: extraction de connaissances, stockage, versioning, liaison, apprentissage machine et réponse aux questions. En ce qui concerne le stockage, ils ont constaté que certaines des solutions les plus performantes l’étaient parce que les résultats (donnés) étaient partiellement incomplets. Cet élément prouve à lui seul que le benchmarking de HOBBBIT couvre des aspects non pris en compte auparavant et qu’il existe un besoin de benchmarks tout autour du Web des données. D’autres résultats montrent qu’il est toujours nécessaire de trouver des solutions facilement distribuables pour l’extraction des connaissances; le versioning n’est pas bien pris en charge et nécessite une norme; les plateformes ouvertes de questions-réponses fonctionnent encore mal en l’état; et les algorithmes d’apprentissage machine spécifiques au Web des données n’évoluent pas très bien. Dans ce contexte, HOBBBIT fournit le premier benchmarking ouvert, évolutif et FAIR (findable, achievable, interoperable and retrievable results) pour le Web des données: «La plateforme HOBBBIT est le premier benchmark générique évolutif pour le Web des mégadonnées. Ses aspects les plus innovants comprennent: le benchmarking distribué des systèmes distribués; sa nature portable pour le benchmarking à la fois localement et dans des environnements distribués; une installation à commande unique à la fois localement et sur Amazon Web Services; la réutilisation des normes pour une interopérabilité et une flexibilité maximales; et des interfaces clairement définies pour une adaptation facile à d’autres types de données et cas d’utilisation», explique le Dr Ngonga. La plateforme a été bien accueillie par l’industrie, avec environ 40 clones créés chaque mois et quelques partenaires industriels désireux d’intégrer des services de benchmarking en interne pour améliorer la qualité de leurs outils. Le projet HOBBBIT ne s’achèvera qu’en novembre, car une deuxième série de benchmarks est en cours d’exécution. L’association créée dans le cadre du projet prendra ensuite le relais, servant de plaque tournante pour le benchmarking en Europe, soutenant la poursuite du développement de la plateforme HOBBBIT et des cadres de benchmarking similaires, et fournissant des services de benchmarking aux acteurs européens.