SmartRegio

Erste Fachtagung am Berlin Big Data Center

Am 15.11. fand die erste Fachtagung am Berlin Big Data Center (BBDC) im Smart Data Forum in Berlin statt. Das BBDC, das ScaDS in Dresden und das SDIL in Karlsruhe sind die drei deutschen Kompetenzzentren für Big respektive Smart Data. Sie bieten Unterstützung für Forscher und Unternehmen für vielfältige Big respektive Smart Data Vorhaben. Das Ziel: Deutschland soll den Anschluss an die USA nicht verlieren. Angesichts des Vorsprungs und der ungleichen Rahmenbedingungen ist das ein durchaus hoher Anspruch. Veranstaltungen wie diese sollen die Erkenntnisse der Kompetenzzentren verbreiten und auf das Angebot aufmerksam machen. Auch SmartRegio hat daran teilgenommen und viel interessantes erfahren.

Big Data – ein Fall von Fachkräftemangel

In seinem Vortrag ging Professor Markl auf die eigentliche Herausforderung hinter Big Data ein. Die klassischen 4 V’s (Volume = Datenmenge, Variety=Variablilität, Velocity=Verarbeitungsgeschwindigkeit und Veracity=Richtigkeit) beschreiben diese nur unzureichend. Herausfordernd ist die Suche nach komplexen Zusammenhängen in verschiedensten Fachbereichen. Für Big Data-Problemstellungen wird ein ungewöhnliches und seltenes Expertenprofil benötigt. Der sogenannte Data Scientist muss Fachwissen in der Anwendungsdomäne, Kenntnisse über die mathematisch-statistischen Basismethoden des Machine Learning und die Optimierung solcher Verfahren auf einer Parallelarchitektur besitzen. Insbesondere letztere Fähigkeit ist hochspeziell und selten. Am Berlin Big Data Center (BBDC) wurde deshalb schon vor mehreren Jahren versucht, Codeoptimierung zu automatisieren. Inzwischen ist daraus das Open Source-Projekt Apache Flink geworden, dass sich in Benchmarks auch gegen manuell optimierten SPARC-Code behaupten kann und durch eine weltweit wachsende Open Source Community vorangetrieben wird.

Fortschritte in Machine Learning

Der zweite Vortrag von Prof. Dr. Klaus-Robert Müller behandelte zunächst effizientere Ähnlichkeitsanalysen im Machine Learning. In SmartRegio werden bspw. komplexe geo-temporale Datenmuster gesucht. Durch locality-sensitive hashing (LSH) werden Datenelemente in Töpfe einsortiert, deren Elemente bereits ähnlich sind. Auf diese Weise kann der Vergleich auf Elemente einzelner Töpfe reduziert werden, das Verfahren ist schnell, parallelisierbar, und durch verschiedene Hashfunktionen ist die Vorbereitung derselben Daten für mehrere Analysen in einem Arbeitsschritt möglich. Anschließend wurde effiziente back-propagation in neuronalen Netzen vorgestellt. Sie deckt entscheidungsrelevante Kriterien trainierter neuronaler Netze auf. In SmartRegio können neuronale Netze beispielsweise für Prognosen über die regionale Entwicklung eines bestimmten Marktes genutzt werden. Natürlich sind aber die dafür relevanten Charakteristika eines Areals äußerst interessant. Lassen sich diese beeinflussen lassen, kann ein Markt gezielt aufgebaut werden.

Big Data auf Graphen und im Data Mining

Viele Daten sind heute in Graphen repräsentiert. Auf SmartRegio trifft das insbesondere auf Social-Media Daten zu, aber auch andere Daten sind über räumliche, zeitliche und sachliche Zusammenhänge verknüfbar und erzeugen so Graphstrukturen. Data Mining-Verfahren wie der Apriori-Algorithmus für Sequenzen sind diesen Ansätzen sehr ähnlich. Es geht um abstrakte Muster bspw. häufigen Teilgraphen oder im letzteren Fall Pfaden. Die zugrundeliegenden Verfahren arbeiten sequentiell, Teilgraphen oder Sequenzen werden schrittweise erweitert und die Häufigkeit neu bestimmt. Dabei entstehen viele Zwischenergebnisse und Elemente müssen häufig vielfach verarbeitet werden, was den Aufwand enorm erhöht. Mit Gradoop entwickelt die Universität Leipzig an einer Erweiterung von Flink, die solche Problemstellungen auf Rechnerclustern bearbeitet. Zunächst werden statische Graphen analysiert, aber künftig sollen auch dynamische Graphen, wie sie bspw. in sozialen Netzen typisch sind, mit einbezogen.

Big Data in SmartRegio

Viele der eingesetzten Verfahren sind potentielle Erweiterungen der Datenintegrations- Auswertungsebene des SmartRegio-Systems. Auch wenn sich das Projekt bereits in der Abschlussphase befindet, werden technische Neuerungen von uns weiter aktiv verfolgt und eingesetzt, sofern sich das noch im Projektzeitraum realisieren lässt.

Leave a Comment

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.