Częściowo zautomatyzowana klasyfikacja projektów - Informacja na temat wyjaśnialności

1. Wprowadzenie

Wspólnotowy Serwis Informacyjny Badań i Rozwoju (CORDIS) wykorzystuje częściowo zautomatyzowany system klasyfikacji projektów w celu przyporządkowywania projektów badawczych finansowanych ze środków Unii Europejskiej do odpowiednich dziedzin nauki. System wykorzystuje techniki należące do domeny sztucznej inteligencji, w szczególności przetwarzanie języka naturalnego i uczenie maszynowe, aby umożliwić użytkownikom szybkie wyszukiwanie projektów związanych z określonymi obszarami badań. System klasyfikacji opiera się na taksonomii opracowanej na podstawie tezaurusa European Science Vocabulary (EuroSciVoc) (ang. Europejski Słownik Naukowy) która zapewnia hierarchiczną strukturę drzewa umożliwiającą kategoryzację dziedzin naukowych. EuroSciVoc stanowi wielojęzyczny słownik obejmujący przeszło 1000 dziedzin nauki, który stanowi cenne narzędzie dla badaczy, decydentów i podmiotów zainteresowanych zgłębianiem rozwoju nauki i technologii. Zachęcamy dziennikarzy naukowych opracowujących materiały na potrzeby serwisu CORDIS, beneficjentów projektów i innych użytkowników serwisu CORDIS do weryfikacji klasyfikacji i przesyłania nam swoich opinii, dzięki czemu będziemy w stanie nieustannie doskonalić system klasyfikacji.

2. Pojęcia i objaśnienia

Pojęcie	Objaśnienie
Sztuczna inteligencja (SI)	Technologia umożliwiająca komputerom i maszynom symulowanie lub naśladowanie ludzkiej inteligencji i zdolności rozwiązywania problemów.
Model klasyfikujący	Rodzaj modelu uczenia maszynowego, który kategoryzuje lub klasyfikuje dane wykorzystując w tym celu wstępnie zdefiniowane klasy lub etykiety. Model pobiera dane wejściowe, a następnie przewiduje, do której kategorii lub klasy należą te dane.
Fields of Research and Development (FoRD)	(ang. Dziedziny Badań i Rozwoju) Klasyfikacja opracowana przez OECD na potrzeby prowadzenia pomiarów, oparta przede wszystkim na treści, która została wykorzystana jako fundament do budowy terminologii EuroSciVoc.
Uczenie maszynowe	Rodzaj algorytmów sztucznej inteligencji, które umożliwiają oprogramowaniu wykorzystywanie procesu uczenia się na podstawie dotychczasowych działań oraz informacji zwrotnych, dzięki czemu mogą skuteczniej przewidywać rezultaty, nawet jeśli nie zostały zaprogramowane w tym celu.
Przetwarzanie języka naturalnego	Jedna z dziedzin sztucznej inteligencji skupiająca się na analizowaniu, rozumieniu i przetwarzaniu języka naturalnego.
Organizacja Współpracy Gospodarczej i Rozwoju (OECD)	Organizacja międzyrządowa założona w 1961 roku w celu wspierania rozwoju gospodarczego i handlu światowego.
Semi-Automatic Classification System (SACS)	(ang. Częściowo zautomatyzowany system klasyfikacji) Oprogramowanie będące częścią serwisu CORDIS, wykorzystywane w celu klasyfikacji treści oraz utrzymywania taksonomii.
Simple Knowledge Organisation System (SKOS)	(ang. Prosty System Organizacji Treści) Opracowana przez W3C norma formalnego modelu danych umożliwiającego przedstawianie taksonomii i słowników.
World Wide Web Consortium (W3C)	Najważniejsza organizacja międzynarodowa zajmująca się ustanawianiem norm dotyczących stron WWW.

3. Informacje o projektach badawczych finansowanych ze środków Unii Europejskiej w serwisie CORDIS

Serwis CORDIS publikuje szczegółowe informacje na temat projektów badawczych finansowanych ze środków Unii Europejskiej, obejmujące cele projektów, dane na temat ich finansowania, a także wyniki i rezultaty. Aby skutecznie zarządzać dużymi ilościami danych oraz klasyfikacją projektów na podstawie ich tematyki, serwis CORDIS korzysta z systemu klasyfikacji wykorzystującego techniki sztucznej inteligencji, w szczególności algorytmy uczenia maszynowego oraz przetwarzanie języka naturalnego, aby przyporządkowywać treści do poszczególnych dziedzin nauki, zgodnie z klasyfikacją EuroSciVoc.

4. Czym jest częściowo zautomatyzowana klasyfikacja projektów?

Częściowo zautomatyzowana klasyfikacja projektów to funkcja oprogramowania SACS, która umożliwia klasyfikację projektów badawczych finansowanych ze środków Unii Europejskiej na podstawie taksonomii EuroSciVoc. Oprogramowanie SACS wykorzystuje techniki sztucznej inteligencji, w szczególności przetwarzanie języka naturalnego oraz algorytmy uczenia maszynowego, aby dopasowywać projekty do odpowiednich dziedzin naukowych opisanych w nomenklaturze EuroSciVoc. Celem tego działania jest zapewnienie efektywnej klasyfikacji wszystkich projektów w serwisie CORDIS. System jest częściowo zautomatyzowany, ponieważ przewiduje możliwość interwencji człowieka w proces, między innymi w celu weryfikacji klasyfikacji i utrzymania taksonomii.

5. Jak przebiega proces klasyfikacji?

Proces klasyfikacji opiera się na dwóch głównych etapach - klasyfikacji automatycznej i klasyfikacji częściowo zautomatyzowanej, która podlega weryfikacji przez człowieka.

5.1. Automatyczna klasyfikacja

Oprogramowanie klasyfikujące wykorzystuje model klasyfikujący przeszkolony na próbce opisów projektów obejmujących szeroki zakres dziedzin naukowych. Dane wejściowe modelu stanowią treści związane z projektem. Na ich podstawie model generuje kategorie oraz wskaźniki jakości, które stanowią dane wyjściowe. Zautomatyzowane etapy procesu obejmują:

Wstępne przetwarzanie - treści związane z projektem są łączone i czyszczone ze wszystkich zbędnych elementów, które mogą utrudniać ich odbiór (znaczników HTML, znaczników formatowania, dodatkowych spacji, znaków podziału wierszy itp.)
Ustalanie dziedziny - dzięki zastosowaniu zintegrowanego narzędzia do przetwarzania języka naturalnego oprogramowanie wskazuje podstawową dziedzinę nauki odpowiadającą treściom.
Wyodrębnianie kolokacji (zestawień słów) i słów kluczowych - przy pomocy zintegrowanego narzędzia do przetwarzania języka naturalnego oprogramowanie dodaje do treści stosowne adnotacje, aby wyróżnić stosowne słowa kluczowe i ich kolokacje.
Klasyfikacja - na podstawie ustalonych reguł do poszczególnych wyodrębnionych słów kluczowych i dziedzin przypisywane są odpowiednie wagi, które pozwalają na klasyfikację kategorii według trafności.
Wybór kategorii i ustalanie priorytetów - uporządkowana lista kategorii jest przetwarzana przy użyciu zestawu ustalonych reguł oraz logiki hierarchicznej w celu wyboru kategorii o najwyższych łącznych wynikach trafności.
Przypisanie kategorii - spośród wybranych kategorii przekraczających minimalny próg istotności do każdego projektu narzędzie zaleca przypisanie pięciu najwyżej ocenionych kategorii.

5.2. Analiza rezultatów przez człowieka oraz próbkowanie

Klasyfikacja projektów jest częściowo weryfikowana przez człowieka. W celu zapewnienia odpowiedniej jakości oraz wydajności procesu, stosujemy podejście oparte na pobieraniu próbek, obejmujące:

Próbkowanie klasyczne (w celu szkolenia modelu): Model klasyfikujący podlega wstępnemu szkoleniu na podstawie dużej próby reprezentatywnej projektów. Proces ten stanowi punkt wyjścia do określenia jego dokładności.
Próbkowanie losowe (w celu weryfikacji działania modelu): Powstaje zestaw zweryfikowanych dokumentów, który zawiera określony podzbiór ręcznie klasyfikowanych treści. Weryfikacje przeprowadzane przez ludzi wspierają proces próbkowania, stanowiąc źródło bieżących informacji zwrotnych na temat działania systemu. Podmioty wykonujące tego rodzaju czynności to między innymi:
- Dziennikarze naukowi i beneficjenci projektów, których zachęcamy do weryfikacji klasyfikacji w wiadomościach związanych z publikacją artykułów o projektach.
- Zarejestrowani użytkownicy serwisu CORDIS, którzy mogą proponować dodanie nowych kategorii za pomocą funkcji „Zaproponuj dodanie nowych dziedzin nauki”. Sugestie są moderowane przez zespół serwisu CORDIS. Ponadto wykorzystujemy Informacje zwrotne przekazywane przez zarejestrowanych użytkowników serwisu CORDIS w celu weryfikacji poprawności klasyfikacji.

Status klasyfikacji jest widoczny w interfejsie serwisu dla użytkowników końcowych. Klasyfikacja zatwierdzona przez człowieka jest oznaczona zielonym znakiem zawierającym napis:

„Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego. Klasyfikacja tego projektu została potwierdzona przez człowieka”.

Klasyfikacja opatrzona prostym niebieskim okienkiem informacyjnym nie została zweryfikowana przez człowieka.

6. Jakie dane są wykorzystywane w procesie klasyfikacji?

Proces klasyfikacji opiera się na danych publicznie dostępnych za pośrednictwem serwisu CORDIS, w tym:

Tytułach oraz celach projektów badawczych;
Podsumowaniach i opisach postępów prac w ramach projektów;
Zweryfikowanych słowach kluczowych oraz kategorii ustalonych w poprzednich rundach klasyfikacji.

7. Czy w procesie wykorzystywane są dane osobowe?

Żadne dane osobowe nie są wykorzystywane na potrzeby szkolenia lub ulepszania systemu klasyfikacji.

8. Istniejące ograniczenia systemu

Czynnikiem ograniczającym skuteczność częściowo zautomatyzowanej klasyfikacji projektów jest ograniczony zakres i szczegółowość taksonomii EuroSciVoc.
Jakość automatycznych sugestii jest zależna od zakresu dostępnych informacji na temat projektu.
Ze względu na dużą liczbę projektów (przeszło 400 miesięcznie) i złożoność związanych z nimi informacji, nie wszystkie projekty mogą zostać szybko zweryfikowane przez ludzi.

9. Wyłączenie odpowiedzialności

Częściowo zautomatyzowany system klasyfikacji projektów wykorzystuje rozwiązania przetwarzania języka naturalnego oraz algorytmy uczenia maszynowego. System jest rozwiązaniem zautomatyzowanym, którego wyniki są częściowo weryfikowane i zatwierdzane przez ludzi. Pomimo podejmowania wszelkich niezbędnych działań w celu zapewnienia odpowiedniej jakości treści, nie możemy zagwarantować ich dokładności. Klasyfikacja ma charakter wyłącznie poglądowy i nie należy wykorzystywać jej w jakichkolwiek celach przed zweryfikowaniem jej dokładności i kompletności.

Urząd Publikacji Unii Europejskiej ani jakakolwiek inna instytucja Unii Europejskiej nie ponoszą odpowiedzialności za jakiekolwiek błędy lub pominięcia wynikające ze stosowania narzędzi i technik klasyfikacji opartych na sztucznej inteligencji w serwisie CORDIS. Powyższe odnosi się także do odpowiedzialności za jakiekolwiek skutki wynikające z wykorzystania treści generowanych przez sztuczną inteligencję. Użytkownikom zaleca się zachowanie ostrożności podczas korzystania z treści oraz ich samodzielną weryfikację.