© Liashko/Shutterstock.com
Big Data – Worum geht es da eigentlich?

Kolumne: Big Data


„Big Data“ – dieses Schlagwort beherrscht seit einiger Zeit die IT-Szene. Gerade in der Datenbankwelt scheinen dadurch Fragen beantwortet werden zu können, bei denen man zuvor mit klassischen Datenbanktechnologien passen musste. Doch was versteckt sich hinter dem Begriff?

Eine umfassende Definition gibt es nicht. Stattdessen findet man eine Sammlung von Begriffen und Technologien, wie z. B. NoSQL, Hadoop oder Data Science, die alle etwas zur Big-Data-Welt beitragen bzw. sich der Big-Data-Technologien bedienen. Oberflächlich gesehen geht es bei Big-Data-Projekten darum, aus großen Datenmengen Antworten auf Fragen zu finden, die man ohne diese Daten und deren geeignete Analyse nicht finden würde. Bereits an diesem ersten Definitionsversuch sieht man, dass dabei immer noch Dinge offen bleiben. Ab wann z. B. ist eine Datenmenge so „groß“, dass man sie als geeignet für Big-Data-Projekte ansehen kann? In der Praxis muss man hier vorsichtig sein, damit man sich das Leben nicht unnötig kompliziert macht und vor lauter Big-Data-Euphorie übersieht, dass man es mit „normalen“ Datenmengen zu tun hat, für die die vorhandenen Datenbanktechnologien aus der „Vor-Big-Data-Zeit“ bestens geeignet sind.

Big Data: ein erster Überblick

Für einen ersten Überblick lohnt der Blick auf mögliche Anwendungsgebiete von Big Data. In vielen Einführungen findet man das folgende Beispiel: Anhand des Navigationsverhaltens eines Benutzers in einer Webanwendung möchte man eine Voraussage dazu treffen können, mit welcher Wahrscheinlichkeit dieser Kunde in Kürze seinen bestehenden Vertrag kündigen möchte. Ziel dieser Analyse wäre es, wechselwilligen Kunden mit speziellen Angeboten vom Verbleib zu überzeugen, bevor sie kündigen.

Es sind mehrere Herausforderungen zu erkennen, die in Big-Data-Projekten entstehen: Zunächst muss man sich auf die Suche nach einer geeigneten Datenquelle machen, aus der man die entsprechenden Informationen extrahieren kann. Hier wären das die Logdateien der Webanwendung mit den Informationen über die besuchten Webseiten inklusive der „Kündigungsseite“. Liegen diese Informationen aus der Vergangenheit vor, muss als Nächstes in einer Offlineanalyse mit mathematischen Methoden versucht werden, Gemeinsamkeiten im Navigationsverhalten der Nutzer zu ermitteln, die später gekündigt haben. Abschließend müssen die ermittelten Merkmale von kündigungswilligen Kunden in ein Onlinesystem eingebaut werden, das den Onlinedatenstrom in Echtzeit analysiert, um bei Erkennen eines „Kü...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang