© Ekaphon maneechot/Shutterstock.com
Ein Big-Data-Anwendungsfall im Bereich der Schwarmintelligenz

Wir sind Weltmeister


Großereignisse werden gerne genutzt, um bestimmte Marken oder neue Produkte intensiv zu bewerben. Diese Chance wollten auch die Autoren dieses Beitrags mit der Fußballweltmeisterschaft 2014 in Brasilien wahrnehmen, um die Vorteile von Big Data für geschäftliche Innovationen an einem konkreten Einsatzbeispiel zu demonstrieren. Ein passender Zeitpunkt, denn aufgrund der Negativschlagzeilen zur NSA-Affäre gerieten die positiven Aspekte von Big-Data-Lösungen damals extrem ins Hintertreffen.

Vor diesem Hintergrund entstand die Idee, Twitter für die Vorhersage von Spielergebnissen zu nutzen: Die Big-Data-Spezialisten wollten die Fußballtipps von Twitter-Nutzern als „Schwarmintelligenz“ nutzen, um bessere Tipps zu erhalten. Die Ergebnisse konnten sich sehen lassen. Das Gimmick fand aber nicht nur großen Zuspruch in der BI-Community, sondern mit ihm lassen sich auch die unterschiedlichen „V“ im Big-Data-Kontext anschaulich erläutern und technologische Umsetzungsmöglichkeiten beispielhaft darstellen.

Die drei V als Kriterium für Big Data

Wenn wir von Big Data sprechen, kommen wir an den drei V: Volume, Variety und Velocity als wesentliche Kriterien nicht vorbei. Beim WM-Tippspiel kam das erste V (Volume) durch die hohe Anzahl an Twitter-Nachrichten zustande, die von den Autoren gesammelt und ausgewertet wurden, um möglichst alle Varianten der Tippabgabe zu berücksichtigen. Bis zum WM-Finale wurden knapp 250 Millionen Tweets analysiert (Abb. 1).

wilms_tippspiel_1.tif_fmt1.jpgAbb. 1: Beispiel eines WM-Tipps via Twitter und des extrahierten Ergebnisses kurz vor Beginn des Finales

Das zweite V (Variety) ergab sich durch die eher unstrukturierten, 140 Zeichen umfassenden Textnachrichten. Diese lud das Projektteam als Textdatenstrom in fünf gängigen Weltsprachen ein und wertete diese teils im Datenstrom, teils im verteilten Batch-Verarbeitungsframework MapReduce unter Nutzung von Text-Mining-Werkzeugen aus. Die Ergebnisse fügten sie anschließend einem relationalem Datenmodell hinzu, das sich aus bestimmten Eigenschaften und dem manuell hinzugefügten tatsächlichen Spielergebnis zusammensetzte.

Velocity als drittes Big-Data-V war insbesondere der Tatsache geschuldet, dass die meisten Twitterer ihre Beiträge wenige Minuten vor dem Anpfiff posteten. Es hieß also, die Tweets noch vor Spielbeginn in Echtzeit zu verarbeiten.

Die technologische Umsetzung

Das breite Technologiespektrum, dem sich Big Data zuordnen lässt, bot verschiedene Möglichkeiten, die Idee für das Tippspiel in die Praxis umzusetzen.

Die...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang