Uczenie się na podstawie ogromnych ilości słabo skategoryzowanych i ustrukturyzowanych danych

Bez względu na pochodzenie – z baz DNA, internetowych sieci społecznościowych czy farm fotowoltaicznych – zbiory Big Data są wykorzystywane do uczenia systemów sztucznej inteligencji stworzonych z myślą o rozwiązywaniu rzeczywistych problemów globalnych. Jednak obszerne zestawy danych, jak również szybkie strumienie danych, nie zawsze dostarczają informacji w postaci zrozumiałej dla systemów uczenia maszynowego. W celu rozwiązania tego problemu uczestnicy projektu MAESTRA opracowali nowe, inteligentne oprogramowanie.

Gospodarka cyfrowa

Temat sztucznej inteligencji, dzięki wykorzystaniu w grach kosmicznych, programach do rozpoznawania mowy i diagnostyce medycznej, jest teraz na topie i często pojawia się w nagłówkach wiadomości. Mimo to budowa uczącego się systemu mnie jest tak prosta, jak sugerują doniesienia medialne: technologia uczenia maszynowego, będąca podstawą sztucznej inteligencji, musi mierzyć się z wieloma skomplikowanymi pod względem obliczeniowym zadaniami różnymi dla każdego zastosowania. Główną tego przyczyną jest fakt, iż dane, na których bazują takie systemy, pochodzą z różnych, rozproszonych źródeł – takich jak filmy wideo, łańcuchy DNA, obrazy medyczne, czujniki czy sieci społecznościowe – w związku z czym nie zawsze da się je przekształcić w ustrukturyzowane formaty wymagane przez systemy uczenia maszynowego do skutecznego uczenia się i dokładnego przewidywania wyników na podstawie nowych, nieobrobionych jeszcze danych. Przykładowo podczas uczenia modeli predykcyjnych inżynierowie-programiści muszą pracować z nieetykietowanymi (lub tylko częściowo etykietowanymi) danymi o wartościach, które dopiero należy przewidzieć; ogromnymi, niepraktycznymi zbiorami danych lub strumieniami o szybkości transmisji przekraczającej możliwości systemu; oraz danymi generowanymi jednocześnie przez czujniki należące do dużej, rozproszonej przestrzennie sieci. Dane są nie tylko złożone, ale także mogą posiadać dwie bądź wszystkie powyższe właściwości, co znacząco utrudnia skuteczne wyszukiwanie informacji. Czasochłonne nadawanie sensu danym „Poradzenie sobie z jednoczesnym występowaniem kilku tych właściwości to trudne wyzwanie, aktualnie będące nie do pokonania. To właśnie ono najbardziej ogranicza możliwości wykorzystania systemów uczenia maszynowego i eksploracji danych” – mówi Sašo Džeroski z Jozef Stefan Institute w słoweńskiej Lublanie. Z tego powodu Džeroski, koordynator finansowanego przez Unię projektu MAESTRA, oraz jego koledzy z Chorwacji, Włoch, Macedonii i Portugalii zdecydowali się posprzątać ten bałagan. Po szczegółowym przeanalizowaniu problemów związanych z przeszukiwaniem złożonych danych zespół zaprojektował nowe metody uczenia maszynowego oparte na drzewach decyzyjnych oraz na regułach, jak również opracował inteligentne oprogramowanie zdolne do pracy na olbrzymich zbiorach lub strumieniach danych, w tym danych częściowo etykietowanych i danych sieciowych, oraz do nadawania im sensu. Większość z nowo powstałych algorytmów jest już w stanie dokonywać złożonych przewidywań, np. predykcji wartości kilku zmiennych jednocześnie. I to nie tylko w teorii: aby udowodnić praktyczność swojego oprogramowania, zespół MAESTRA przetestował je na kilku problemach „pokazowych” z różnych dziedzin. Sukces leży w genach Algorytmy MAESTRA do wyszukiwania danych zostały zastosowane do zbiorów genomicznych zawierających sekwencje DNA pochodzące zarówno z pojedynczych organizmów, jak i bardziej złożonych populacji, jak ludzka flora bakteryjna jelita. Złożone dane genetyczne zostały również dogłębnie przeanalizowane przez systemy uczenia maszynowego, którym udało się dość dobrze przewidzieć funkcje genów tysięcy gatunków bakterii na podstawie wyłącznie danych o ich sekwencjach DNA. Systemy te przewidziały również fenotypy mikroorganizmów na podstawie ich genotypów i zidentyfikowały związki, które mogą pomóc w leczeniu gruźlicy i salmonelli. W kontekście energii słonecznej, algorytmy MAESTRA umożliwiły systemom uczenia maszynowego przewidywanie zarówno produkcji, jak i zużycia energii na podstawie danych z czujników umieszczonych w różnych instalacjach, w tym wielkości produkcji energii słonecznej przez elektrownię fotowoltaiczną oraz wielkości zużycia energii niezbędnej do ogrzewania sondy kosmicznej Mars Express. Dodatkowo zespół Džeroskiego przewidział, na podstawie zbiorów danych dotyczących transportu, awarie sprzętowe na kolei i zapotrzebowanie na taksówki. Badaczom udało się również poprawić dokładność analizy wydźwięku oraz oznaczania obrazów w sieciach społecznościowych. Coraz większa liczba zastosowań Wiele z ogólnych algorytmów eksploracji danych opracowanych w ramach projektu MAESTRA zostało już udostępnionych na zasadzie open source, jednak Džeroski ma nadzieję, że kilka z nich zostanie wykorzystanych w komercyjnych projektach AI i, po dodaniu osobnych interfejsów użytkownika, dostosowanych do konkretnych zastosowań. „Dzięki temu partnerzy projektu MAESTRA będą mogli opracować produkty wtórne w postaci narzędzi i usług, które są bardziej przystępne dla potencjalnych klientów” – podsumowuje. Jak sugeruje Džeroski, firmy farmaceutyczne mogą używać spersonalizowanych narzędzi MAESTRA do nauczenia swoich systemów sztucznej inteligencji identyfikowania nowych zastosowań dla leków starszej generacji, co nazywane jest repozycjonowaniem leków. Wyniki projektu MAESTRA są obecnie stosowane w wielu innych projektach wykorzystujących systemy uczenia maszynowego w badaniach nad funkcjami genów, zdrowiem, mutacjami guzów, medycyną spersonalizowaną, neuroinformatyką, zrównoważoną produkcją żywności czy bioróżnorodnością.