Classificazione semi-automatica dei progetti - Informativa sulla spiegabilità

1. Introduzione

Il Servizio comunitario di informazione in materia di ricerca e sviluppo (CORDIS) utilizza un sistema di classificazione semi-automatico dei progetti per classificare i progetti di ricerca finanziati dall’UE in base ai rispettivi campi scientifici. Questo sistema, che sfrutta tecniche di intelligenza artificiale (IA), in particolare l’elaborazione del linguaggio naturale (NLP) e l’apprendimento automatico (ML), consente agli utenti di trovare rapidamente progetti correlati a specifiche aree di ricerca. Il sistema di classificazione utilizza la tassonomia del Vocabolario scientifico europeo (EuroSciVoc), che fornisce una struttura ad albero gerarchica per la categorizzazione dei campi scientifici. EuroSciVoc è una tassonomia multilingue che copre oltre 1 000 campi scientifici, il che la rende uno strumento essenziale per ricercatori, responsabili politici e altre parti interessate che desiderano esplorare gli sviluppi in ambito scientifico e tecnologico. I giornalisti scientifici che scrivono per CORDIS, i beneficiari del progetto e gli altri utenti CORDIS sono invitati a verificare le classificazioni e a fornirci il loro feedback, in modo che il sistema di classificazione possa essere costantemente migliorato.

2. Termini e definizioni

Termine	Definizione
Intelligenza artificiale (IA)	Tecnologia che consente a computer e macchine di simulare o imitare l’intelligenza umana e le capacità di risoluzione dei problemi.
Modello di classificazione	Un tipo di modello di apprendimento automatico che categorizza o classifica i dati in classi o etichette predefinite. Prende i dati di input e prevede a quale categoria o classe appartengono.
Campi di ricerca e sviluppo (FoRD)	La classificazione OCSE sviluppata per scopi di misurazione, seguendo principalmente un approccio basato sui contenuti, che viene utilizzata come struttura portante di EuroSciVoc.
Apprendimento automatico (ML)	Un tipo di intelligenza artificiale che consente alle applicazioni software di «imparare» dalle pratiche e dai feedback passati, diventando più precise nel prevedere i risultati senza essere programmate esplicitamente.
Elaborazione del linguaggio naturale (NLP)	Un campo dell’intelligenza artificiale utilizzato per analizzare, comprendere ed elaborare il linguaggio umano.
Organizzazione per la cooperazione e lo sviluppo economico (OCSE)	Un’organizzazione intergovernativa, fondata nel 1961 per stimolare il progresso economico e il commercio mondiale.
Sistema di classificazione semi-automatico (SACS)	Il software utilizzato su CORDIS per la classificazione dei contenuti e la manutenzione della tassonomia.
Sistema semplice di organizzazione della conoscenza (SKOS)	Uno standard W3C per la rappresentazione di vocabolari controllati.
Il consorzio del World Wide Web (W3C)	La principale organizzazione internazionale per gli standard del World Wide Web.

3. Informazioni sui progetti di ricerca finanziati dall’UE su CORDIS

CORDIS fornisce informazioni dettagliate sui progetti di ricerca finanziati dall’UE, tra cui obiettivi, finanziamenti, esiti e risultati del progetto. Per gestire l’elevato volume e la complessità degli argomenti del progetto, CORDIS utilizza un sistema di classificazione che sfrutta tecniche di intelligenza artificiale, in particolare NLP e ML, per ordinare i contenuti in base ai campi scientifici elencati in EuroSciVoc.

4. Che cos’è la classificazione semi-automatica dei progetti?

La classificazione semi-automatica dei progetti è una funzionalità del software SACS che classifica i progetti di ricerca finanziati dall’UE applicando la tassonomia EuroSciVoc. SACS sfrutta le tecniche di intelligenza artificiale, in particolare NLP e ML, per abbinare i progetti ai campi scientifici pertinenti in EuroSciVoc. L’obiettivo è garantire una classificazione efficiente di tutti i progetti su CORDIS. Il sistema è «semi-automatico» perché consente l’intervento umano, inclusa la convalida delle classificazioni e il mantenimento della tassonomia.

5. Come funziona il processo di classificazione?

Il processo di classificazione prevede due fasi principali: la classificazione automatizzata e la classificazione semi-automatica, sottoposta a revisione umana.

5.1. La classificazione automatizzata

Il software di classificazione utilizza un modello di classificazione addestrato su un campione di descrizioni di progetti che coprono un’ampia gamma di campi scientifici. Il modello accetta come input i testi relativi al progetto e fornisce come output categorie e indicatori di qualità. I passaggi automatizzati sono:

Pre-elaborazione: i testi relativi al progetto vengono assemblati e ripuliti da elementi non necessari o di disturbo (tag HTML, codici di formattazione, spazi extra, interruzioni di riga, ecc.)
Individuazione del dominio: il dominio scientifico di alto livello del contenuto viene identificato utilizzando uno strumento NLP integrato.
Collocazione (combinazioni di parole) ed estrazione di parole chiave: il testo viene annotato con uno strumento NLP integrato per identificare parole chiave rilevanti e parole chiave collocate.
Classificazione: le regole aziendali vengono utilizzate per ponderare le parole chiave e i domini estratti, classificando le categorie in base alla pertinenza.
Selezione e definizione delle priorità delle categorie: l’elenco delle categorie classificate viene elaborato utilizzando una combinazione di regole aziendali e logica gerarchica per selezionare le categorie con i punteggi di pertinenza combinati più elevati.
Assegnazione delle categorie: tra le categorie che superano la soglia minima di pertinenza, per ogni progetto vengono consigliate le prime cinque classificate più in alto.

5.2. Revisione e campionamento umani

La classificazione dei progetti è parzialmente rivista da esseri umani. Per mantenere la qualità e le prestazioni viene utilizzato un approccio basato sul campionamento, che comprende:

Campionamento classico (addestramento del modello): Il modello di classificazione iniziale viene addestrato su un campione ampio e rappresentativo di progetti, fornendo una base di riferimento per l’accuratezza.
Campionamento opportunistico (convalida in corso): Viene mantenuto un set di documenti convalidato, costituito da un sottoinsieme selezionato di documenti classificati manualmente. Le revisioni umane supportano il processo di campionamento fornendo un feedback pratico e continuo sui risultati del sistema. Questo viene fatto, ad esempio, da:
- Giornalisti scientifici e beneficiari dei progetti che sono incoraggiati a verificare le classificazioni nella comunicazione relativa alla pubblicazione di articoli sui progetti.
- Utenti registrati del sito web CORDIS che possono suggerire nuove categorie tramite la funzione «Suggerisci nuovi campi scientifici». Questi suggerimenti sono moderati dal team CORDIS. Il feedback degli utenti registrati del sito web CORDIS viene utilizzato per convalidare le classificazioni.

Lo «stato» della classificazione è trasparente nell’interfaccia web per l’utente finale, che vedrà un badge verde su una classificazione convalidata da esseri umani con il testo:

«CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. La classificazione di questo progetto è stata convalidata da un essere umano.»

Al contrario, un semplice tooltip informativo blu indica che la classificazione non è stata convalidata da un essere umano.

6. Quali dati vengono utilizzati nella classificazione?

Il processo di classificazione utilizza dati pubblicamente disponibili sulla piattaforma CORDIS, tra cui:

Titoli e obiettivi dei progetti di ricerca,
Riepiloghi riportati dei progressi dei progetti,
Parole chiave e categorie convalidate dai precedenti cicli di classificazione.

7. Nel processo vengono utilizzati dati personali?

Nessun dato personale viene utilizzato per addestrare o migliorare il sistema di classificazione.

8. Limitazioni al momento attuale

La classificazione semi-automatica è limitata dall’ambito e dalla granularità di EuroSciVoc.
La qualità dei suggerimenti automatici varia in base alla ricchezza delle informazioni disponibili sul progetto.
A causa dell’elevato volume di progetti (oltre 400 al mese) e della complessità delle informazioni correlate, non tutti i progetti possono essere convalidati rapidamente da esseri umani.

9. Disclaimer - aspetti di responsabilità

Il sistema di classificazione semiautomatica dei progetti si basa su NLP e ML. È automatizzato e parzialmente verificato e convalidato da esseri umani. Sebbene vengano adottate tutte le misure necessarie per garantire la qualità dei contenuti, non è possibile garantirne l’accuratezza. La classificazione è fornita solo a scopo informativo e non deve essere utilizzata per scopi specifici senza verificarne l’accuratezza e la completezza.

Si declina ogni responsabilità dell’Ufficio delle pubblicazioni dell’Unione europea e delle istituzioni dell’UE per errori od omissioni nei risultati derivanti dall’applicazione di strumenti e tecniche di classificazione di intelligenza artificiale su CORDIS. Non si assume alcuna responsabilità per le conseguenze derivanti dall’affidarsi esclusivamente a tali contenuti generati dall’intelligenza artificiale. Si consiglia agli utenti di utilizzare i contenuti con cautela e di esercitare la dovuta diligenza.