Sicher durch die Stromschnellen der großen Datenströme navigieren

Eine vollständige Ausnutzung der unternehmerischen und gesellschaftlichen Möglichkeiten intelligenter Technologien erfordert eine neue Herangehensweise an die Verarbeitung von Big Data, die das von der EU finanzierte Projekt FERARI bereitstellen soll.

Digitale Wirtschaft

Technologien zur Verarbeitung von Big Data werden üblicherweise erschaffen, um auf vom Menschen erzeugte Daten zu reagieren, die aus internetgestützten Systemen wie etwa Facebook hervorgehen. Der Standardansatz besteht folglich darin, in verteilten Dateisystemen gespeicherte Daten stapelweise zu verarbeiten. Mit „intelligenten“ Technologien wie beispielsweise Fahrzeug-zu-Fahrzeug-Kommunikation aus Maschine-zu-Maschine-Interaktionen (Machine-to-Machine, M2M) erzeugte Datenvolumen übertreffen jedoch weit die von den Menschen generierten Mengen. Es besteht Bedarf an einem neuen Ansatz mit globaler Skalierbarkeit, Geschwindigkeit und Benutzerfreundlichkeit für Nichtfachkundige, mit dem man komplexe analytische Aufgaben in Echtzeit über verteilte Datenquellen implementieren kann. Das von der EU finanzierte FERARI-Projekt wurde an den Start gebracht, um ein derartiges, für diesen bestimmten Zweck geeignetes System zur Verfügung zu stellen. Entwicklung einer leistungsstarken, modularen und elastischen Architektur Eine der maßgeblichen Herausforderungen bei der Verarbeitung von M2M-Daten ist die kontinuierliche Erzeugung von Datenströmen mit sehr hohem Volumen, was eine Speicherung verhindert. Im Einzelnen bedeutet das, dass man transiente Daten oftmals in Echtzeit ohne Speicherung verarbeitet werden. Und auch für den Fall, dass die Daten an einen zentralen Ort (oder an ein Cloud-System) gesandt werden könnten, gäbe es entlang des Netzwerks immer noch Engpässe, die weitere Kosten und Verzögerungen nach sich zögen. Hindernisse dieser Art dürften in Zukunft noch höher werden, da der Umfang an lokalen Sensoren zum Sammeln von Daten gleichermaßen zunimmt. Die Antwort des Projekts bestand darin, seinen Ansatz in eine Reihe relevanter Ziele aufzubrechen. Zunächst einmal sollte die „In-Situ-Verarbeitung“ kultiviert werden, die der Projektkoordinator Dr. Michael Mock als „Datenstromverarbeitung“ beschreibt, „die nahe des Standorts stattfindet, an dem die Daten erzeugt werden, wodurch Netzwerkstau und Verzögerungen vermieden werden.“ Im Zusammenhang damit übernahm das Projekt die komplexe Verarbeitung von Ereignissen (Complex Event Processing, CEP). Anhand der Sortierung von Daten aus mehreren Quellen wurden Muster aufgespürt, die zur Identifizierung von vorgegebenen Situationen (Ereignissen) führten, die dann sofort programmierte Reaktionen auslösten. Eine Kombination dieser beiden Zielstellungen - CEP-Technologie mit In-situ-Verarbeitung -, erwies sich jedoch als eine der größten Herausforderungen an das Projekt. Dr. Mock dazu: „Die vorhandene CEP-Technologie ist nicht dazu geeignet, auf Systemen für verteilte Big Data zu laufen - sie ist stattdessen für den Einsatz auf einzelnen, meist sehr leistungsfähigen Computern vorgesehen.“ Die Lösung im Rahmen des Projekts bestand darin, die CEP-Engine (Verarbeitung mit Proton - PROactive Technology Online von IBM) auf der Big Data-Streamingplattform Apache Storm laufen zu lassen. Des Weiteren entwickelte man einen Query Planner, der die CEP-Engine optimierte, um einen einzigen, globalen CEP-Ausdruck („expression“) in eine Gruppe von CEP-Ausdrücken zu übersetzen, die zwecks Bewertung im gesamten FERARI-System verteilt werden können. Um Flexibilität zu ermöglichen, ist die FERARI-Architektur modular gestaltet, wobei ihre Framework-Komponenten von der zugrundeliegenden Big Data-Streamingplattform getrennt sind. So kann das Framework an eine beliebige zugrundeliegende Plattform angepasst werden. Von der Szenarioprüfung zum maschinellen Lernen Der Ansatz von FERARI wurde auf zwei anspruchsvolle Testszenarien angewandt: Analyse von Mobilfunkbetrug in Telekommunikationsnetzen und Echtzeit-Gesundheitsüberwachung innerhalb von Clouds und großen Rechenzentren. Dr. Mock zieht den Schluss: „Die Szenarien sind mit Erfolg anhand realer Daten ausgewertet worden. So konnte man zum Beispiel anhand anonymisierter Mobiltelefonaufzeichnungen, die der Projektpartner HT Croatian Telekom zur Verfügung stellte, nachweisen, dass mit dem FERARI-System Betrug innerhalb einer Wartezeit von nur Sekundenbruchteilen erkannt werden kann.“ Er fährt fort: „Diese Errungenschaften werden es der europäischen Industrie ermöglichen, in verschiedenen Anwendungsbereichen Spitzenprodukte zu bauen, bei denen es von entscheidender Wichtigkeit ist, gewaltige Datenmengen kontinuierlich zu bewerten und zu überwachen, wie es etwa im Internet der Dinge oder bei Industrie 4.0 der Fall sein wird.“ Das FERARI-Framework wurde quelloffen (Open Source) mit Docker-Software-Containern zur einfachen Installation auf jeder Maschine, vom Personal Computer bis zum Cluster- oder Cloud-System, herausgegeben, so dass es von den wissenschaftlichen und unternehmerischen Communities erforscht und angewandt werden kann. Das Team hat überdies eine Anleitung zur Verfügung gestellt, in der Installation und Nutzung erläutert sowie ein aufschlussreiches Beispiel für den Betrieb angegeben werden. Trotz der Überlegenheit dieses Systems gegenüber anderen Technologien beruht es bei der Erstellung der algorithmischen Regeln immer noch auf manueller Eingabe durch Fachleute. Mit Blick in die Zukunft stellt Dr. Mock fest: „Ein weiterer Schritt in die richtige Richtung wäre es, relevante Regeln mit Techniken für Maschinenlernen aus den Daten zu erlernen und in ähnlicher Weise bei der Konfiguration der In-situ-Verarbeitungsmethoden vorzugehen. In diesen Bereich wollen wir nun unsere Energie hineinsstecken.“