© Ekaphon maneechot/Shutterstock.com
Big Data und ich

Kreativität aus rohen Daten


Big Data ändert die traditionellen Spielregeln der Datenanalyse auf fundamentale Weise, indem es den Fokus, die Kosten und die Aufwände von der Vorverarbeitung und Aggregation der Daten auf die eigentliche Analyse verschiebt. Daten werden roh, unstrukturiert und in nahezu beliebiger Menge speicherbar. Die Analyse vieler Probleme kann trotzdem parallel und performant durchgeführt werden. Aber die Analyse funktioniert nicht wie gewohnt. Welche Auswirkungen hat diese Neufokussierung auf die Prozesse der Datenanalyse? Auf die Anforderungen an die Analysespezialisten? Auf die Möglichkeiten der Fachabteilung?

Big Data ist aktuell ein sehr beliebtes Thema in IT-Zirkeln. Egal, ob Produkthersteller, Softwarearchitekt oder IT-Berater, die ganze Branche diskutiert die „Big-Data-Revolution“ und ihre Auswirkungen auf den Umgang und die Auswertung von Daten. In Deutschland wird die Debatte zusätzlich noch durch die generelle Diskussion über das Datensammeln und Fragen des Datenschutzes beflügelt. Dieser Artikel möchte für die kreativen Möglichkeiten im Big Data werben, aber die Herausforderungen auf dem Weg auch systematisch andiskutieren. Wenn dabei die Referenzen des vorliegenden Artikels vorrangig aus dem amerikanischen Umfeld entlehnt sind, liegt das vor allem am nur spärlich vorhandenen veröffentlichten Material im deutschen und europäischen Sprachraum.

Was ist Big Data?

Geht man direkt von der gewählten Benennung aus, ist ein erstes Kriterium sicherlich, dass es sich um große Datenmengen handelt, die es zu analysieren gilt. Was aber ist das Besondere an der Größe der zu verarbeitenden Datenmenge? Meist definiert man die Datenmenge als zu groß [1]: zu groß für die Verarbeitung mithilfe von traditionellen RDBMS-basierten Lösungen. Die Datenmenge übersteigt eine mit vertretbarem Aufwand und Kosten für Analysezwecke betreibbare relationale Datenbank. Hier handelt es sich durchaus um eine typische IT-Herausforderung, da die Speicherung in RDBMS mit zunehmender Anzahl der Datensätze schnell kostspielig wird. Häufig werden aus diesem Grund archivierte Daten aus dem Datenbanksystem ausgelagert und stehen daher überhaupt nicht für eine einfache Analyse zur Verfügung. Typische Beispiele sind komplette Log-Daten von E-Commerce-Seiten oder Anwendungen des Social Web, aber auch die vollständigen Messdaten von Produktionsmaschinen oder ganzen Fertigungsstraßen.

Ein zweites häufig genanntes Kriterium ist, dass die Daten zu unstrukturiert sind, um sie unverarbeitet sinnvoll in...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang