CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Holistic Benchmarking of Big Linked Data

Article Category

Article available in the following languages:

Analizy porównawcze Big Link Data zyskują na popularności w przemyśle

Uczynienie „Big Linked Data” atrakcyjnym rozwiązaniem dla przemysłu wymaga odpowiednich narzędzi analizy porównawczej w celu zadbania o to, aby opracowane rozwiązania spełniały wymogi przypadków zastosowania. Narzędzia te są teraz dostępne dzięki pracom prowadzonym w ramach projektu HOBBIT.

Gospodarka cyfrowa icon Gospodarka cyfrowa

Czy znasz pojęcie Linked Data? Jeśli nie, prawdopodobnie wkrótce o nim usłyszysz. Tak jak big data jest ewolucją w eksploracji danych, tak Linked Data oznacza ewolucję sieci semantycznej, która sama w sobie jest kamieniem węgielnym Web 3.0 – Internetu, w którym wszystkie informacje są podzielone na kategorie w taki sposób, aby mogły być rozumiane w takim samym stopniu przez komputery, co przez ludzi. Krótko mówiąc, Linked Data polega na wykorzystaniu sieci do łączenia powiązanych, a dotąd niepołączonych danych. Przemysł już korzysta z Linked Data, ale jego integracja z big data była dotychczas utrudniona przez koszty i trudności związane z wykorzystaniem tych ostatnich w łańcuchu wartości. „Big Linked Data” napotyka na przeszkody związane z brakiem znormalizowanego wdrażania wskaźników wydajności – co utrudnia podjęcie decyzji, które narzędzie należy zastosować i kiedy z niego korzystać – oraz z faktem, że niektóre aspekty big data (prędkość, wielkość, zmienność, wiarygodność, wartość) są słabo wspierane przez istniejące narzędzia. „Na przykład, zarządzanie miliardami trójek RDF (red.: zestaw trzech encji, który kodyfikuje stwierdzenie o danych semantycznych w formie wyrażeń podmiot-orzeczenie-dopełnienie, np. „Jan Kowalski uwielbia CORDIS”) jest nadal poważnym problemem, jeżeli chodzi o aspekt ilościowy”, wyjaśnia prof. dr Axel Ngonga z Uniwersytetu Paderborn i Instytutu Informatyki Stosowanej w Lipsku. „Ponadto różne semantyki strumieniowania i brak skalowalności istniejących rozwiązań sprawiają, że przetwarzanie strumieni semantycznych w skali stanowi duże wyzwanie (kwestia prędkości). Wreszcie, obecne metody uczenia w przypadku danych ustrukturyzowanych często nie są skalowane do dużych baz wiedzy, co utrudnia wykrywanie wniosków (wartość)”. Prof. dr Ngonga prowadzi dziewięcioosobowe konsorcjum w ramach projektu HOBBIT (Holistic Benchmarking of Big Linked Data), aby rozwiązać te problemy. Skupiając się na przemyśle 4.0 zarządzaniu danymi geoprzestrzennymi, inteligentnych miastach i zarządzaniu IT, zespół przeprowadził badania ankietowe wśród ponad 100 uczestników przed i w trakcie realizacji projektu w celu określenia kluczowych obszarów dla analizy porównawczej powiązanych danych. „Nasze badania sugerują, że stworzone przez nas rodziny analiz porównawczych odnoszą się do niektórych kluczowych dziedzin będących przedmiotem zainteresowania europejskich przedsiębiorstw i naukowców”, wyjaśnia. HOBBIT stworzył łącznie pięć rodzin analiz porównawczych do oceny aktualnego oprogramowania: ekstrakcja wiedzy, przechowywanie, obsługa wersji, łączenie, uczenie maszynowe i odpowiadanie na pytania. Jeżeli chodzi o przechowywanie, okazało się, że niektóre z najlepszych rozwiązań zawdzięczają swoją skuteczność temu, że wyniki, jakie uzyskały, są częściowo niekompletne. Już sam ten fakt dowodzi, że analizy porównawcze HOBBIT obejmują wcześniej nieuwzględniane aspekty oraz że istnieje potrzeba wprowadzenia analiz porównawczych wokół Linked Data. Inne ustalenia dotyczą faktu, że nadal potrzebne są łatwe do rozpowszechniania rozwiązania w zakresie pozyskiwania wiedzy; że obsługa wersji nie jest należycie wspierana i wymaga standardu; że otwarte platformy odpowiadania na pytania nadal działają słabo w środowisku naturalnym; oraz że algorytmy uczenia maszynowego specyficzne dla Linked Data nie skalują się zbyt dobrze. W tym kontekście projekt HOBBIT zapewnia pierwszą otwartą, skalowalną i spełniającą kryteria FAIR (wykrywalne, osiągalne, interoperacyjne i możliwe do pobrania wyniki) analizę porównawczą Linked Data: „Platforma HOBBIT jest pierwszym ogólnym skalowalnym narzędziem porównawczym dla Big Linked Data. Do jej najbardziej innowacyjnych aspektów należą: rozproszona analiza porównawcza systemów rozproszonych; przenośny charakter, umożliwiający analizę porównawczą zarówno lokalnie, jak i w środowiskach rozproszonych; instalacja przy użyciu jednego polecenia, zarówno lokalnie, jak i w usługach Amazon Web Services; ponowne wykorzystanie standardów dla maksymalnej interoperacyjności i elastyczności; oraz jasno zdefiniowane interfejsy dla łatwej adaptacji do innych typów danych i przypadków użycia”, tłumaczy dr Ngonga. Platforma została dobrze przyjęta przez przemysł (co miesiąc powstaje ok. 40 klonów), a niektórzy partnerzy przemysłowi chcą korzystać z usług analiz porównawczych wewnętrznie, aby poprawić jakość swoich narzędzi. Projekt HOBBIT zakończy się dopiero w listopadzie, gdyż obecnie trwa druga runda analiz porównawczych. Następnie prace będą kontynuowane przez stowarzyszenie utworzone w ramach projektu, pełniące rolę centrum analiz porównawczych w Europie, wspierające dalszy rozwój platformy HOBBIT i podobnych ram analiz porównawczych oraz świadczące usługi analiz porównawczych dla europejskich interesariuszy.

Słowa kluczowe

HOBBIT, Big Data, linked data, sieć semantyczna, Web 3.0, analiza porównawcza

Znajdź inne artykuły w tej samej dziedzinie zastosowania