Halbautomatische Projektklassifizierung - Hinweis zur Erklärbarkeit

1. Einführung

Der Informationsdienst der Gemeinschaft für Forschung und Entwicklung (CORDIS) verwendet ein halbautomatisches Projektklassifizierungssystem, um EU-finanzierte Forschungsprojekte nach ihren jeweiligen wissenschaftlichen Fachgebieten zu kategorisieren. Dieses System, bei dem Verfahren der künstlichen Intelligenz (KI), insbesondere der Verarbeitung natürlicher Sprache (NLP) und des maschinellen Lernens (ML) genutzt werden, ermöglicht es den Nutzenden, Projekte schnell zu finden, die mit bestimmten Forschungsgebieten in Zusammenhang stehen. Im Klassifizierungssystem wird die Taxonomie des European Science Vocabulary (EuroSciVoc) verwendet, die eine hierarchische Baumstruktur zur Kategorisierung wissenschaftlicher Gebiete bereitstellt. EuroSciVoc ist eine mehrsprachige Taxonomie, die über 1 000 wissenschaftliche Fachgebiete abdeckt und somit ein unverzichtbares Werkzeug für Forschende, Verantwortliche der Politik und andere Interessengruppen darstellt, die auf der Suche nach Entwicklungen in Wissenschaft und Technologie sind. Wissenschaftsjournalistinnen und -journalisten, die für CORDIS schreiben, Projektbegünstigte und andere CORDIS-Nutzende werden ermutigt, Klassifizierungen zu überprüfen und uns ihr Feedback mitzuteilen, damit das Klassifizierungssystem kontinuierlich weiter optimiert werden kann.

2. Begriffe und Definitionen

Begriff	Definition
Künstliche Intelligenz (KI)	Technologie, mit der Computer und Maschinen menschliche Intelligenz und Problemlösungsfähigkeiten simulieren oder imitieren können.
Klassifizierungsmodell	Ein Typ eines Maschinenlernmodells, das Daten nach vordefinierten Klassen oder Kennzeichnungen kategorisiert oder klassifiziert. Es nimmt Eingabedaten und sagt voraus, zu welcher Kategorie oder Klasse die Daten gehören.
Gebiete der Forschung und Entwicklung (Fields of Research and Development, FoRD)	Die OECD-Klassifizierung, die für Messzwecke entwickelt wurde und in erster Linie einem inhaltlichen Ansatz folgt, dient als Grundlage für EuroSciVoc.
Maschinelles Lernen (ML)	Eine Art der künstlichen Intelligenz, die es Softwareanwendungen ermöglicht, aus bisherigen Praktiken und Rückmeldungen zu „lernen“ und Ergebnisse genauer vorherzusagen, ohne explizit programmiert zu werden.
Natürliche Sprachverarbeitung (NLP)	Bereich der KI, der dazu dient, menschliche Sprache zu analysieren, zu verstehen und zu verarbeiten.
Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD)	Zwischenstaatliche Organisation, die 1961 gegründet wurde, um den wirtschaftlichen Fortschritt und den Welthandel zu fördern.
Halbautomatisches Klassifizierungssystem (Semi-Automatic Classification System, SACS)	Software, die bei CORDIS der Klassifizierung von Inhalten und der Pflege von Taxonomien dient.
Simple Knowledge Organisation System (SKOS)	W3C-Standard zur Darstellung von kontrolliertem Vokabular.
Das World Wide Web Consortium (W3C)	Die wichtigste internationale Normungsorganisation für das World Wide Web.

3. Informationen zu EU-finanzierten Forschungsprojekten auf CORDIS

CORDIS bietet detaillierte Informationen über EU-finanzierte Forschungsprojekte, einschließlich Projektzielen, Finanzierung, Auswirkungen und Resultaten. Um die große Menge und Komplexität der Projektthemen zu bewältigen, kommt auf CORDIS ein Klassifizierungssystem zum Einsatz, das KI-Verfahren, insbesondere NLP und ML, nutzt, um die Inhalte nach Wissenschaftsgebieten gemäß EuroSciVoc zu ordnen.

4. Was ist eine halbautomatische Projektklassifizierung?

Die halbautomatische Projektklassifizierung bildet ein Merkmal der SACS-Software, die EU-finanzierte Forschungsprojekte unter Anwendung der EuroSciVoc-Taxonomie klassifiziert. SACS nutzt KI-Verfahren, insbesondere NLP und ML, um Projekte den relevanten wissenschaftlichen Bereichen in EuroSciVoc zuzuordnen. Das Ziel lautet, eine effiziente Klassifizierung aller Projekte auf CORDIS zu gewährleisten. Das System ist „halbautomatisch“, da es menschliche Eingriffe wie die Validierung von Klassifizierungen und die Pflege der Taxonomie zulässt.

5. Wie funktioniert der Klassifizierungsprozess?

Der Klassifizierungsprozess umfasst zwei Hauptstufen: die automatische Klassifizierung und die halbautomatische Klassifizierung, die von Menschen geprüft wird.

5.1. Die automatische Klassifizierung

Die Klassifizierungssoftware nutzt ein Klassifizierungsmodell, das anhand einer Stichprobe von Projektbeschreibungen aus einem breiten Spektrum wissenschaftlicher Bereiche trainiert wurde. In das Modell werden projektbezogene Texte eingegeben und es liefert Kategorien und Qualitätsindikatoren als Ausgabe. Die automatisierten Schritte sind:

Vorverarbeitung: Texte, die sich auf das Projekt beziehen, werden zusammengestellt und von unnötigen oder störenden Elementen (HTML-Tags, Formatierungscodes, überflüssigen Leerzeichen, Zeilenumbrüchen usw.) bereinigt.
Domänenerkennung: Die übergeordnete wissenschaftliche Domäne des Inhalts wird mithilfe eines integrierten NLP-Instruments ermittelt.
Extraktion von Kollokationen (Wortkombinationen) und Schlüsselwörtern: Der Text wird mit einem integrierten NLP-Instrument annotiert, um relevante Schlüsselwörter und nebeneinanderstehende Schlüsselwörter zu ermitteln.
Klassifizierung: Mithilfe von Geschäftsregeln werden extrahierte Schlüsselwörter und Domänen gewichtet und Kategorien nach Relevanz eingestuft.
Kategorienauswahl und Priorisierung: Die Rangliste der Kategorien wird mithilfe einer Kombination aus Geschäftsregeln und hierarchischer Logik verarbeitet, um Kategorien mit den höchsten kombinierten Relevanzwerten auszuwählen.
Zuordnung der Kategorien: Aus den Kategorien, die den Mindestrelevanzschwellenwert überschreiten, werden für jedes Projekt die fünf am höchsten bewerteten Kategorien empfohlen.

5.2. Prüfung durch den Menschen und Stichproben

Die Klassifizierung der Projekte wird teilweise von Menschen überprüft. Der Sicherstellung von Qualität und Leistung dient ein stichprobenbasierter Ansatz, der Folgendes umfasst:

Klassisches Stichprobenverfahren (Modelltraining): Das anfängliche Klassifizierungsmodell wird anhand einer großen, repräsentativen Stichprobe von Projekten trainiert, um Basiswerte für die Genauigkeit zu schaffen.
Opportunistische Probenahme (laufende Validierung): Es wird ein validierter Dokumentensatz gepflegt, der aus einer ausgewählten Teilmenge von Dokumenten besteht, die manuell klassifiziert werden. Mit Prüfungen durch Menschen wird das Stichprobenverfahren unterstützt, wobei sie kontinuierliches, praktisches Feedback zur Systemleistung liefern. Das erfolgt beispielsweise durch:
- Wissenschaftsjournalistinnen und -journalisten und Projektbegünstigte, die aufgefordert werden, die Klassifizierungen in der Kommunikation im Zusammenhang mit der Veröffentlichung von Artikeln über die Projekte zu überprüfen.
- Registrierte Nutzerinnen und Nutzer der CORDIS-Website, die über die Funktion „Neue Wissenschaftsgebiete vorschlagen“ neue Kategorien empfehlen können. Diese Vorschläge werden vom CORDIS-Team moderiert. Das Feedback der registrierten Nutzenden der CORDIS-Website dient der Validierung der Klassifizierungen.

Der „Status“ der Klassifizierung ist in der Weboberfläche für Endnutzende erkennbar. Bei einer von Menschen validierten Klassifizierung ist dann ein grünes Symbol mit folgendem Text zu sehen:

„CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, mithilfe eines halbautomatischen Prozesses, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Die Klassifizierung dieses Projekts wurde von Menschen bestätigt.“

Im Gegensatz dazu zeigt eine einfache blaue Informationsanzeige an, dass die Klassifizierung nicht durch einen Menschen validiert wurde.

6. Welche Daten dienen der Klassifizierung?

Beim Klassifizierungsprozess werden öffentlich verfügbare Daten von der CORDIS-Plattform genutzt, darunter:

Titel und Ziele der Forschungsprojekte;
Zusammenfassende Berichterstattung über die Fortschritte der Projekte;
Validierte Schlüsselwörter und Kategorien aus früheren Klassifizierungsrunden.

7. Werden innerhalb des Prozesses personenbezogene Daten verwendet?

Beim Training oder bei der Optimierung des Klassifizierungssystems werden keine personenbezogenen Daten genutzt.

8. Zum gegenwärtigen Zeitpunkt herrschende Einschränkungen

Die halbautomatische Klassifizierung ist durch den Umfang und die Detailgenauigkeit von EuroSciVoc begrenzt.
Die Qualität der automatischen Vorschläge hängt von Genauigkeit und Vielfalt der verfügbaren Projektinformationen ab.
Aufgrund der hohen Anzahl an Projekten (mehr als 400 pro Monat) und der Komplexität der damit verbundenen Informationen können nicht alle Projekte schnell von Menschen geprüft werden.

9. Haftungsausschluss - Haftungsaspekte

Das halbautomatische Projektklassifizierungssystem beruht auf Verarbeitung natürlicher Sprache und maschinellem Lernen. Es ist automatisiert und wird teilweise von Menschen überprüft und validiert. Obwohl alle notwendigen Maßnahmen getroffen werden, um die Qualität der Inhalte zu gewährleisten, kann deren Richtigkeit nicht garantiert werden. Die Klassifizierung dient lediglich Informationszwecken und sollte nicht ohne Überprüfung auf Richtigkeit und Vollständigkeit für konkrete Zwecke herangezogen werden.

Das Amt für Veröffentlichungen der Europäischen Union und die EU-Institutionen übernehmen keine Haftung für Fehler oder Auslassungen, die sich aus dem Einsatz von KI-Instrumenten und Klassifizierungsverfahren auf CORDIS ergeben. Es kann keine Verantwortung für Folgen übernommen werden, die sich aus dem alleinigen Vertrauen auf derartige KI-generierte Inhalte ergeben. Den Nutzerinnen und Nutzern wird empfohlen, die Inhalte mit Vorsicht zu verwenden und mit der gebotenen Sorgfalt vorzugehen.