Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud

Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud

Hans-Peter Grahsl, Manfred Steyer


Es ist hinreichend bekannt, dass sich Apache Hadoop über die letzten Jahre zu einem De-facto-Standard im Kontext von Big Data entwickeln konnte. Wenn es darum geht, riesige Mengen an Daten verteilt zu speichern und auszuwerten, nimmt Hadoop eine zentrale Stellung in modernen Datenarchitekturen ein. Dazu bietet es neben einem verteilten Dateisystem ein skalierbares und fehlertolerantes Programmiermodell namens MapReduce an. Da Hadoop auf Java basiert und ursprünglich ausschließlich für Linux-Umgebungen konzipiert wurde, war es bislang eine nicht zu unterschätzende Herausforderung, Apache Hadoop auf der Microsoft-Plattform produktiv einzusetzen. Durch eine Entwicklungspartnerschaft mit Hortonworks, einem US-amerikanischen, auf Hadoop spezialisierten Unternehmen, ist es Microsoft jedoch gelungen, diese Einstiegshürde erfolgreich zu beseitigen. So bieten sich potenziellen Anwendern je nach Präferenz mittlerweile auch im Microsoft-Umfeld zwei effektive Möglichkeiten, Hadoop stabil und produktiv einzusetzen:

In der Cloud: HDInsight als Windows-Azure-Cloud-ServiceOn Premise: HDP for Windows, ein MSI-Paket zur Installation auf Windows-Server

Der vorliegenden Artikel beschränkt sich auf die Betrachtung der standardmäßig unterstützten Datenverarbeitungsszenarien von Windows Azure HDInsight 2.1, einem Cloud-Service, der sich auf die Hortonworks Data Platform (HDP) 1.3.0 [1] stützt. Im Laufe der letzten Jahre sind rund um Hadoop viele weitere Open-Source-Projekte unter dem Dach der Apache Software Foundation entstanden. Daraus hat sich ein stattliches und dynamisches Ökosystem mit der Zielsetzung entwickelt, Frameworks und Tools zu schaffen, die Hadoop geeignet ergänzen bzw. darauf aufsetzen. Tabelle 1 zeigt, welche Version von Apache Hadoop und welche ausgewählten Komponenten aus diesem Ökosystem in HDInsight bereitstehen, um Entwickler und Datenanalysten bei der täglichen Arbeit zu unterstützen.

KomponenteVersionApache Hadoop1.2.0 Apache Hive(inkl. HCatalog und Templeton)0.11.0 Apache Pig0.11Apache Sqoop1.4.3Apache Oozie3.2.2AmbariAPI v1.0

Tabelle 1: Komponenten und Versionen von Windows Azure HDInsight 2.1 [2]

Low-Level vs. High-Level MapReduce

Das von Google 2004 [3] veröffentlichte und an das funktionale Paradigma angelehnte Programmiermodell MapReduce (Kasten: „Hadoop MapReduce“) stellte in den Anfangszeiten Hadoops die einzige Möglichkeit dar, verteilte Datenauswertungen auf Hadoop-Clustern durchzuführen. Neben der nativen MapReduce-Entwicklung auf Basis von ...

Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud

Big-Data-Analyse mit Apache Hadoop in der Windows-Azure-Cloud

Hans-Peter Grahsl, Manfred Steyer


Es ist hinreichend bekannt, dass sich Apache Hadoop über die letzten Jahre zu einem De-facto-Standard im Kontext von Big Data entwickeln konnte. Wenn es darum geht, riesige Mengen an Daten verteilt zu speichern und auszuwerten, nimmt Hadoop eine zentrale Stellung in modernen Datenarchitekturen ein. Dazu bietet es neben einem verteilten Dateisystem ein skalierbares und fehlertolerantes Programmiermodell namens MapReduce an. Da Hadoop auf Java basiert und ursprünglich ausschließlich für Linux-Umgebungen konzipiert wurde, war es bislang eine nicht zu unterschätzende Herausforderung, Apache Hadoop auf der Microsoft-Plattform produktiv einzusetzen. Durch eine Entwicklungspartnerschaft mit Hortonworks, einem US-amerikanischen, auf Hadoop spezialisierten Unternehmen, ist es Microsoft jedoch gelungen, diese Einstiegshürde erfolgreich zu beseitigen. So bieten sich potenziellen Anwendern je nach Präferenz mittlerweile auch im Microsoft-Umfeld zwei effektive Möglichkeiten, Hadoop stabil und produktiv einzusetzen:

In der Cloud: HDInsight als Windows-Azure-Cloud-ServiceOn Premise: HDP for Windows, ein MSI-Paket zur Installation auf Windows-Server

Der vorliegenden Artikel beschränkt sich auf die Betrachtung der standardmäßig unterstützten Datenverarbeitungsszenarien von Windows Azure HDInsight 2.1, einem Cloud-Service, der sich auf die Hortonworks Data Platform (HDP) 1.3.0 [1] stützt. Im Laufe der letzten Jahre sind rund um Hadoop viele weitere Open-Source-Projekte unter dem Dach der Apache Software Foundation entstanden. Daraus hat sich ein stattliches und dynamisches Ökosystem mit der Zielsetzung entwickelt, Frameworks und Tools zu schaffen, die Hadoop geeignet ergänzen bzw. darauf aufsetzen. Tabelle 1 zeigt, welche Version von Apache Hadoop und welche ausgewählten Komponenten aus diesem Ökosystem in HDInsight bereitstehen, um Entwickler und Datenanalysten bei der täglichen Arbeit zu unterstützen.

KomponenteVersionApache Hadoop1.2.0 Apache Hive(inkl. HCatalog und Templeton)0.11.0 Apache Pig0.11Apache Sqoop1.4.3Apache Oozie3.2.2AmbariAPI v1.0

Tabelle 1: Komponenten und Versionen von Windows Azure HDInsight 2.1 [2]

Low-Level vs. High-Level MapReduce

Das von Google 2004 [3] veröffentlichte und an das funktionale Paradigma angelehnte Programmiermodell MapReduce (Kasten: „Hadoop MapReduce“) stellte in den Anfangszeiten Hadoops die einzige Möglichkeit dar, verteilte Datenauswertungen auf Hadoop-Clustern durchzuführen. Neben der nativen MapReduce-Entwicklung auf Basis von ...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang