Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud

Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud


Der gelbe Dickhäuter ist endgültig in der Windows-Welt angekommen … und das Warten hat sich gelohnt. Microsoft kündigte Ende Oktober die allgemeine Verfügbarkeit und damit offiziell eine zum produktiven Einsatz freigegebene Version von HDInsight an. Dabei handelt es sich um eine auf Apache Hadoop basierende Cloud-Lösung für Azure, die zur Analyse sehr großer und unstrukturierter Datenmengen mittels skalierbarer und verteilter Batchverarbeitung geeignet ist.

Es ist hinreichend bekannt, dass sich Apache Hadoop über die letzten Jahre zu einem De-facto-Standard im Kontext von Big Data entwickeln konnte. Wenn es darum geht, riesige Mengen an Daten verteilt zu speichern und auszuwerten, nimmt Hadoop eine zentrale Stellung in modernen Datenarchitekturen ein. Dazu bietet es neben einem verteilten Dateisystem ein skalierbares und fehlertolerantes Programmiermodell namens MapReduce an. Da Hadoop auf Java basiert und ursprünglich ausschließlich für Linux-Umgebungen konzipiert wurde, war es bislang eine nicht zu unterschätzende Herausforderung, Apache Hadoop auf der Microsoft-Plattform produktiv einzusetzen. Durch eine Entwicklungspartnerschaft mit Hortonworks, einem US-amerikanischen, auf Hadoop spezialisierten Unternehmen, ist es Microsoft jedoch gelungen, diese Einstiegshürde erfolgreich zu beseitigen. So bieten sich potenziellen Anwendern je nach Präferenz mittlerweile auch im Microsoft-Umfeld zwei effektive Möglichkeiten, Hadoop stabil und produktiv einzusetzen:

  • In der Cloud: HDInsight als Windows-Azure-Cloud-Service

  • On Premise: HDP for Windows, ein MSI-Paket zur Installation auf Windows-Server

Der vorliegenden Artikel beschränkt sich auf die Betrachtung der standardmäßig unterstützten Datenverarbeitungsszenarien von Windows Azure HDInsight 2.1, einem Cloud-Service, der sich auf die Hortonworks Data Platform (HDP) 1.3.0 [1] stützt. Im Laufe der letzten Jahre sind rund um Hadoop viele weitere Open-Source-Projekte unter dem Dach der Apache Software Foundation entstanden. Daraus hat sich ein stattliches und dynamisches Ökosystem mit der Zielsetzung entwickelt, Frameworks und Tools zu schaffen, die Hadoop geeignet ergänzen bzw. darauf aufsetzen. Tabelle 1 zeigt, welche Version von Apache Hadoop und welche ausgewählten Komponenten aus diesem Ökosystem in HDInsight bereitstehen, um Entwickler und Datenanalysten bei der täglichen Arbeit zu unterstützen.

Komponente

Version

Apache Hadoop

1.2.0

Apache Hive

(inkl. HCatalog und Templeton)

0.11.0

Apache Pig

0.11

Apach...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang