Classification semi-automatique des projets - Avis sur l’explicabilité

1. Introduction

Le Service communautaire d’information sur la recherche et le développement (CORDIS) utilise un système de classification semi-automatique des projets pour catégoriser les projets de recherche financés par l’UE en fonction de leurs domaines scientifiques respectifs. Ce système, qui exploite des techniques d’intelligence artificielle (IA), notamment le traitement du langage naturel (TLN) et l’apprentissage automatique (AA), permet aux utilisateurs de rapidement trouver des projets liés à des domaines de recherche spécifiques. Le système de classification utilise la taxonomie du vocabulaire scientifique européen (EuroSciVoc), qui fournit une structure arborescente hiérarchique pour catégoriser les domaines scientifiques. EuroSciVoc est une taxonomie multilingue qui couvre plus de 1 000 domaines scientifiques, ce qui en fait un outil essentiel pour les chercheurs, les décideurs politiques et autres acteurs qui souhaitent explorer les développements scientifiques et technologiques. Les journalistes scientifiques qui écrivent pour CORDIS, les bénéficiaires du projet et les autres utilisateurs de CORDIS sont encouragés à vérifier les classifications et à nous faire part de leurs commentaires, afin de pouvoir continuellement améliorer le système de classification.

2. Termes et définitions

Terme	Définition
Intelligence artificielle (IA)	Technologie qui permet aux ordinateurs et aux machines de simuler ou d’imiter l’intelligence humaine et ses capacités de résolution de problèmes.
Modèle de classification	Type de modèle d’apprentissage automatique qui catégorise ou classe les données en catégories ou étiquettes prédéfinies. Elle prend des données d’entrée et prédit à quelle catégorie ou classe elles appartiennent.
Domaines de recherche et de développement (FoRD)	Classification de l’OCDE développée à des fins de mesure, suivant principalement une approche par le contenu, qui sert de base à EuroSciVoc.
Apprentissage automatique (AA)	Type d’IA qui permet aux applications logicielles «d’apprendre» de leurs pratiques passées et des retours d’information, affinant la précision de leurs prédictions sans programmation explicite.
Traitement du langage naturel (TLN)	Domaine de l’IA utilisé pour analyser, comprendre et traiter le langage humain.
Organisation de coopération et de développement économiques (OCDE)	Organisation intergouvernementale, fondée en 1961 pour stimuler le progrès économique et le commerce mondial.
Système de classification semi-automatique (SACS)	Logiciel utilisé sur CORDIS pour la classification du contenu et la maintenance de la taxonomie.
Système simple d’organisation des connaissances (SKOS)	Norme du W3C pour la représentation des vocabulaires contrôlés.
Consortium World Wide Web (W3C)	Principal organisme international de normalisation du World Wide Web.

3. Informations sur les projets de recherche financés par l’UE sur CORDIS

CORDIS fournit des informations détaillées sur les projets de recherche financés par l’UE, notamment leurs objectifs, leur financement, leurs résultats et leurs retombées. Pour gérer le volume important et la complexité des sujets du projet, CORDIS utilise un système de classification qui exploite des techniques d’IA, notamment le TLN et l’AA, pour classer le contenu par domaines scientifiques tels que répertoriés dans EuroSciVoc.

4. Qu’est-ce que la classification semi-automatique de projets?

La classification semi-automatique des projets est une fonctionnalité du logiciel SACS qui classe les projets de recherche financés par l’UE en appliquant la taxonomie EuroSciVoc. SACS exploite des techniques d’IA, notamment le TLN et l’AA, pour faire correspondre les projets aux domaines scientifiques pertinents d’EuroSciVoc. L’objectif est d’assurer une classification efficace de tous les projets sur CORDIS. Le système est «semi-automatique» car il implique une intervention humaine, notamment pour la validation des classifications et la maintenance de la taxonomie.

5. Comment fonctionne le processus de classification?

Le processus de classification comporte deux principales étapes: la classification automatisée et la classification semi-automatique, qui est vérifiée par un humain.

5.1. La classification automatisée

Le logiciel de classification utilise un modèle de classification entraîné sur un échantillon de descriptions de projets couvrant un large éventail de domaines scientifiques. Le modèle prend en entrée des textes relatifs au projet et fournit en sortie des catégories et des indicateurs de qualité. Les étapes automatisées sont les suivantes:

Prétraitement: les textes relatifs au projet sont rassemblés et les éléments inutiles ou perturbateurs (balises HTML, codes de formatage, espaces supplémentaires, sauts de ligne, etc.) sont éliminés.
Détection du domaine: le domaine scientifique de haut niveau du contenu est identifié à l’aide d’un outil TNL intégré.
Collocation (combinaisons de mots) et extraction de mots clés: le texte est annoté avec un outil TNL intégré afin d’identifier les mots clés pertinents et les mots clés colocalisés.
Classification: des règles métier sont utilisées pour pondérer les mots clés et les domaines extraits, classant les catégories par pertinence.
Sélection et hiérarchisation des catégories: la liste classée des catégories est traitée à l’aide d’une combinaison de règles métier et de logique hiérarchique pour sélectionner les catégories dont les scores de pertinence combinés sont les plus élevés.
Attribution des catégories: les cinq catégories les mieux classées parmi celles qui dépassent le seuil de pertinence minimal, sont recommandées pour chaque projet.

5.2. Examen et échantillonnage humains

La classification des projets est partiellement examinée par des humains. Une approche par échantillonnage permet de maintenir la qualité et les performances, notamment:

Échantillonnage classique (apprentissage du modèle): Le modèle de classification initial est entraîné sur un large échantillon représentatif de projets, ce qui permet d’établir une base de référence pour plus de précision.
Échantillonnage opportuniste (validation continue): Un ensemble de documents validés est maintenu, constitué d’un sous-ensemble sélectionné de documents classés manuellement. Des évaluations humaines soutiennent le processus d’échantillonnage en fournissant un retour d’information pratique et continu sur les résultats du système. Cette tache est, par exemple, accomplie par:
- Des journalistes scientifiques et les bénéficiaires des projets qui sont encouragés à vérifier les classifications dans la communication relative à la publication d’articles sur les projets.
- Des utilisateurs inscrits sur le site web CORDIS qui peuvent suggérer de nouvelles catégories via la fonctionnalité «Suggérer de nouveaux domaines scientifiques». Ces suggestions sont modérées par l’équipe CORDIS. Les retours des utilisateurs inscrits sur le site web CORDIS servent à valider les classifications.

Le «statut» de la classification est totalement transparent dans l’interface web pour l’utilisateur final qui verra un badge vert sur une classification validée par un humain assorti du texte:

«CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. La classification de ce projet a été validée par un humain».

À l’opposé, une simple infobulle bleue indique que la classification n’a pas été validée par un humain.

6. Quelles données sont utilisées pour la classification?

Le processus de classification utilise des données accessibles au public sur la plateforme CORDIS, notamment:

Titres et objectifs des projets de recherche,
résumés des rapports d’avancement des projets,
mots clés et catégories validés à partir des cycles de classification précédents.

7. Ce processus fait-il appel à des données personnelles?

Aucune donnée personnelle n’est utilisée pour former ou améliorer le système de classification.

8. Limitations actuelles

La classification semi-automatique est limitée par la portée et la granularité d’EuroSciVoc.
La qualité des suggestions automatiques varie selon la richesse des informations disponibles sur le projet.
En raison du volume élevé de projets (plus de 400 par mois) et de la complexité des informations associées, tous les projets ne peuvent pas être rapidement validés par des humains.

9. Clause de non-responsabilité - aspects de la responsabilité

Le système de classification semi-automatique des projets est basé sur le TNL et l’AA. Il est automatisé et partiellement vérifié et validé par des humains. Bien que toutes les mesures nécessaires soient prises pour garantir la qualité du contenu, son exactitude ne peut être garantie. Cette classification est fournie à titre informatif uniquement et ne doit pas être utilisée à des fins spécifiques sans vérification de son exactitude et de son exhaustivité.

L’Office des publications de l’Union européenne et les institutions de l’UE déclinent toute responsabilité en cas d’erreurs ou d’omissions dans les résultats issus d’outils et de techniques d’IA de classification sur CORDIS. Nous déclinons toute responsabilité quant aux conséquences de l’utilisation de ce type de contenu généré par l’IA. Les utilisateurs sont invités à utiliser ces contenus avec prudence et à faire preuve de diligence raisonnable.