© DrHitch/Shutterstock.com
Big Data

2 Ideen und Konzepte im Umgang mit Big Data


Big Data = MapReduce + NoSQL + Sharding. Wenn das Ihr mentales Bild ist und Sie eine gesunde Portion Sarkasmus vertragen können, lesen Sie weiter. In diesem Artikel werden Ihnen grundsätzliche Ideen und Konzepte im Umgang mit großen Daten vermittelt und die damit verbundenen Problemfelder aufgezeigt.

Vorab sei gesagt: In diesem Artikel werden keine Toolvergleiche angestellt, weil sie nur zu Missverständnissen und Flammenkriegen führen. Sie können nach dem Durchlesen des Artikels hoffentlich selbst entscheiden, welches Tool bzw. welchen Ansatz Sie wann wählen sollten. Und mit ein bisschen Recherche finden Sie auch die entsprechenden Tools. Die technische Seite des Big-Data-Hypes ist auf der einen Seite voller Geheimnisse und Missinterpretationen und auf der anderen Seite der konkreteste und meist diskutierte Aspekt, was Big Data betrifft. Klar, man hat bereits Unmengen von mit dem Big-Data-Etikett gelabelten Tools zur Verfügung, weiß allerdings nicht so recht, was man damit tun soll. Die existierenden Tools müssen also überhaupt erst Probleme finden, die sie lösen sollen. Aber sie sind so cool, dass man sie unbedingt ausprobieren möchte. Weitere Informationen zum vorliegenden Artikel finden Sie auch unter [1].

highscalability.com

Woher kommt diese Toolbegeisterung? Natürlich von den Artikeln auf Internetseiten wie highscalability.com und dergleichen. In regelmäßigen Abständen schmeißt dort ein weiterer Facebook-Übernahmekandidat mit mehr als zweifelhaftem Geschäftsmodell eine Liste von coolen Tools aufs elektronische Papier, die das Herz eines jeden Technikers im Nu höher schlagen lässt. Und in einem Nebensatz wird auch noch erwähnt, dass alles, was man eingesetzt hat, natürlich Open Source ist und per se ganz ohne Lizenzkosten daherkommt. Diese Aussage wird keinen aufmerksamen, kostengetriebenen Entscheider kalt lassen, und da haben wir den Salat.

Die Kürze des jeweiligen Blog-Posts tut ihr Übriges: Es entsteht das Gefühl, dass alles so leicht ist, dass man es auch selber hinbekommen kann. Ab hier gibt es drei Wege in Abhängigkeit von der Unternehmensart:

  1. Man setzt die besagten Tools sofort ein und ersetzt damit die gesamte bisherige Toollandschaft. Dieses Verhaltensmuster trifft auf mittellose Start-ups zu, deren Geschäftsmodell einzig und alleine im ständigen Wechsel der Tools besteht. Diese Firmen lehnen Java oder .NET grundsätzlich ab, weil diese sie in diesem Tempo massiv einschränken würden.
  2. Man erprobt die Tools in der zwanzigsten Inkarnation des Projekts unter dem Basiscodenamen „Ach, lasst uns doch bewerten, ob wir diese drakonischen Oracle- und Hardwarekosten loswerden“, das bei jeder erneuten Wiederholung einzig und alleine dem Zweck dient, den Beweis zu erbringen, dass alles beim Alten bleiben muss. Die für das Projekt verwendeten Datenvolumina würden sich problemlos in einer unindizierten Textdatei wohlfühlen und stellen lediglich die schmerzfreie Spitze eines gigantischen, unantastbaren Eisbergs dar. Vor allem der über Jahre gewachsene Mittelstand neigt zu einem solchen Verhalten.
  3. Man schaltet auf Sarkasmus um: „Woher sollen wir denn große Daten haben? Wir sind ja nur eine der größten Europäischen Banken. Bei uns passt alles nach wie vor in die Oracle-Datenbanken“. Dieses Verhalten gilt ab der Unternehmensgröße, bei der Oracle oder SAP persönlich anrufen und um Termine bitten, und in denen das Dreijahresbudget die meistverwendete Skalierungsstellschraube darstellt – anstelle der vertikalen, horizontalen oder diagonalen Skalierung.

Es dürfte offensichtlich sein, dass in allen drei Fällen nicht wirklich etwas Verwertbares, Produktives entsteht – außer Selbstbeschäftigung natürlich. Aber man hat das Gefühl, mit der Zeit zu gehen oder zumindest nicht ganz die neuesten Entwicklungen zu verschlafen, ganz gleich, ob sie einen tatsächlich betreffen oder nicht.

EDV, CS und das alles

Ja, noch vor einigen Jahren sah die Welt der elektronischen Datenverarbeitung (für die Jüngeren unter Ihnen: EDV) ganz einfach aus: Speichere alle Arten von Daten in einem Hot-Standby-Oracle-Koloss, greife darauf mit ein paar fetten, über Jahre gewachsenen Enterprise-Java-Anwendungen zu und drehe diese Daten in dem mit jedem auch nur erdenklichen Datentopf per ODBC verheirateten Cognos so lange herum, bis sie um Gnade winseln. Und plötzlich kommt so ein Facebook-Rotzbub um die Ecke und verdient Geld mit nichts. Und das macht er mit Tools, deren Namen und Anzahl jeden Konzernsoftwareportfoliomanager in den Wahnsinn und den vorgezogenen Ruhestand treiben würden.

Auf die IT-Öffentlichkeit wirkt sich der Erfolg von Amazon, Google und Co. vor allem in Form von technologischen Trittbrettfahrern und massiven Verunsicherungen aus. Während die besagten Unternehmen sich die besten Computerwissenschaftler ins Haus holen und riesige Forschungsabteilungen unterhalten, um aus ihrer Technik das letzte Quäntchen Leistung herauszupressen, vereinfachen die besagten Trittbrettfahrer die Wissenschaft enorm und reduzieren sie auf belanglose Toollisten, die sie voller Stolz auch gleich auf highscalability.com veröffentlichen und damit die IT-Welt total verunsichern. Da ist eh schon ständig die Rede von diesem ganzen Big-Data-Zeug, von dem man nicht so recht weiß, mit welchem Besteck man es am besten essen soll, und dann gießen sie noch weiteres Öl ins Feuer der allgemeinen Verzweiflung und legen Zahlen und Tools an den Tag, von denen man nur träumen kann und die man im Übrigen auch selbst gerne hätte.

Und in diesem Spannungsfeld entstehen gut und gerne saloppe Aussagen, die einen ambitionierten Techniker mit Neigung zur fundierten Wissenschaft bis zum Herzinfarkt erschaudern lassen. Es ist meine Pflicht, diese Aussagen etwas auseinander zu sortieren und mit einer entsprechenden Portion gesundem Menschenverstand (und natürlich Sarkasmus – wie denn sonst?) zu relativieren.

Wie normale Daten, bloß größer

Das menschliche Wesen neigt generell dazu, in messbaren Größen zu denken und Dinge größentechnisch zu vergleichen und zu sortieren. Bereits im frühesten Alter ist es ein beliebtes Lernspiel, zwei Gegenstände hinsichtlich ihrer Größe zu bewerten und eine Schwarz- oder Weißentscheidung zu treffen. Das geht auch ganz gut mit Schubladendenken einher. Was ich mir in den letzten Monaten alles anhören durfte, war ungefähr in der Klasse von „Big Data hat nicht jeder, die meisten haben nur Medium Data“ oder „Big Data sind halt eben wie normale Daten, bloß größer“. Dabei geht es um Tera- und Petabytes von Daten. Petabytes – das hört sich so richtig männlich an. Das klingt dann schon nach viel, viel größer als mickrige, altbackene Gigabytes, oder?

Wenn Sie unbedingt nach einer Vergleichsabgrenzung der großen Daten vom Rest streben, kann ich Ihnen das Leben mit folgender Definition ganz leicht machen: Petabytes von Daten, die auf unterschiedlichen Kontinenten stündlich neu aufschlagen und komplexe Relationen aufweisen, die sofort während ihres Eintreffens hinsichtlich jedweder Anomalien untersucht und in grafische Management-Dashboards inklusive Business-Forecast-Korrektur gegossen werden müssen – das ist Big Data. Alles darunter ist „Mickey-Mouse-Data“.

Es geht bei Big Data nicht um die Größe, obgleich dieser Marketingname etwas Größentechnisches impliziert. Es geht darum, dass Sie entweder bereits riesige, unverarbeitete und kaum strukturierte Datenmengen im Unternehmen und dessen unmittelbarer Umgebung haben und diese anzapfen müssen, oder Sie können diese Daten ansammeln und anreichern bzw. erheben – jede Art von Daten, die in irgendeiner Beziehung zu Ihrem Geschäftsmodell steht.

Für die elektronische Verarbeitung von diesen Datenarten mit den damit verbundenen, unkontrollierbaren Mengen gelten eigene Gesetze. Auch hier werde ich nicht selten mit der Aussage konfrontiert „Ach, Daten sind Daten. Egal, wie groß – das sind dieselben Prinzipien“. Das stimmt so natürlich ganz und gar nicht. Betrachten wir doch zunächst einmal die Speicherung.

Datenspeicherung = Datenbank

Jede Art von Storage kann irgendwo als Datenbank bezeichnet werden. Daten können auf eine Diskette passen (für die Jüngeren unter Ihnen: so groß wie ein iPod, kann so viel speichern wie ein Sandkorn), oder sie liegen auf vielen Festplatten in einem großen Schrank. Das Problem eines jeden physischen Datenträgers, egal wie groß oder klein er ist, ist dessen limitierte Gesamtkapazität. Man kann die Hardwareschränke schon sehr weit ausbauen, aber irgendwo ist Schluss mit deren Skalierung.

Und an dieser Stelle, wenn man mit großen Datenmengen zu rechnen h...

Neugierig geworden? Wir haben diese Angebote für dich:

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang