© DrHitch/Shutterstock.com
Big Data

3 Apache HBase


Eine quelloffene BigTable-Implementierung

Nachdem Google das Problem der Speicherung von theoretisch unbegrenzten Datenmengen [1] und deren Bearbeitung [2] gelöst hatte, fehlte lediglich eine datenbankähnliche Lösung mit wahlfreiem Zugriff auf Milliarden von Datensätzen. Dafür entwickelte Google BigTable [3]. Eine sinngetreue, offene Implementierung davon ist Apache HBase, kurz für Hadoop Database.

Wieder ein neuer Tag, wieder eine neue Datenbanktechnologie, die Wunder verspricht, so könnte die Einleitung zu diesem Abschnitt auch gelesen werden. Während es vor wenigen Jahren nur die klassischen, relationalen Datenbanken gab, steht man heute vor einer schier endlosen Auswahl. Also warum ist Apache HBase (im Folgenden nur HBase genannt) wirklich von Interesse? Vielleicht weil dessen Vorbild einen Großteil der Google-Anwendungen antreibt, darunter Analytics und Earth. Aber auch der ganze Webcrawl mit über einer Billionen Einträgen. Kombiniert mit der Anzahl der internen und externen Nutzer muss BigTable verlässlich Millionen von Abfragen jeden Tag durchführen. Dass auch HBase das kann, zeigt die Entscheidung von Facebook, die Datenbank zu nutzen, um monatlich über 135 Millionen Nachrichten für die mehr als 500 Millionen Nutzer zu speichern [4]. Diese Anzahl resultiert in Terabytes an Daten, die sicher gespeichert werden müssen und dabei auch wieder wahlfrei abgerufen werden können. Man kann argumentieren, dass es eben ein spezieller Anwendungsfall sei, für den HBase optimiert ist. Nachrichten sind eine heterogene Datenmenge, die bei SMS wenige 100 Bytes groß sind, aber bei E-Mails schnell Kilo- oder sogar Megabyte erreichen können. Das an sich ist schon bemerkenswert. Facebook benutzt HBase aber auch für eine „Echtzeit“-Business-Intelligence-Anwendung, genannt Insights [5]. Dort wird ein OLAP-ähnlicher Datenwürfel konstant aktuell gehalten, damit die Websitebesitzer, die ein von Facebook angebotenes Social-Network-Plug-in auf ihren Seiten platzieren, sofort sehen können, wie populär eine Seite ist. Dies ermöglicht es, schnell Entscheidungen zu treffen, um Besucher zu binden und schließlich etwas zu verkaufen. In diesem Anwendungsfall speichert HBase nur Long-Datentypen, also acht Bytes pro Zähler einer bestimmten Dimension. Pro Server werden bis zu 10 000 Änderungen pro Sekunde vorgenommen, und der lesende Zugriff ist wiederum völlig wahlfrei.

Auch Firmen wie Yahoo!, Adobe, Mozilla, Twitter und Trend Micro nutzen HBase in Fällen, wo traditionelle Datenbanken...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang