© Excellent backgrounds/Shutterstock.com
Java Magazin
Big Data mit Spring for Apache Hadoop

Frühjahrsdaten

Mit Spring for Apache Hadoop (SHDP) [1] stellte SpringSource vor einem Jahr eine Integration des Apache-Hadoop-Frameworks in das Spring-Data-Framework vor. Seit Juni dieses Jahres liegt das zweite Milestone-Release vor, das eine Reihe neuer Funktionalitäten mitbringt.

Ramon Wartala


SpringSource bzw. der Eigner VMware sieht dieses Release eng verknüpft mit dem zweiten Projekt, das die Firma zum Thema Big Data und Virtualisierung anbietet: dem Projekt Serengeti [2].

SHDP ermöglicht es über die von Spring bekannten Dependency Injections, Hadoop-Anwendungen zu konfigurieren. Hadoop-Anwendungen im SHDP-Kontext können dabei sowohl normale MapReduce-Implementierungen sein, als auch auf Funktionen von Hive [3], Pig [4], Cascading [5] oder HBase [6] zugreifen. Darüber hinaus unterstützt SHDP das von Spring Batch bekannte Workflow-Modell. Dabei können sowohl MapReduce-Jobs als auch Dateioperationen in Hadoops Dateisystem HDFS ausgeführt werden.

Dabei wird nicht nur das Standardnutzermodell von Hadoop, sondern auch die Kerberos-Authentifizierung unterstützt. Zudem bringt SHDP DAO-Support für HBase und Unterstützung für Cascading-Flows mit sich. Bei der Anwendung von Cascading stehen darüber hinaus Anbindungen der Spring-eigenen Abstraktionen für Streams (FTP, Twitter, RSS, Atom etc.) und Messages Queues wie JMS, TCP usw. zur Verfügung [7].

Installation

Hadoop lässt sich in vielen Umfeldern installieren – ob im eigenen Rechenzentrum als Cluster, auf virtualisierten Instanzen bei Amazon oder auf dem lokalen Rechner. Zum Ausprobieren eignet sich am besten eine bestehende Virtual-Machine-Installation der drei großen Anbieter kommerzieller Hadoop-Distributionen, die die VMs in der Regel auch für die eigenen Trainings kostenlos zur Verfügung stellen. Diese sind:

Clouderas Hadoop Demo VM [8]Hortonworks AMI [9]Greenplum HD [10]

Im Folgenden soll die Installation auf Clouderas Demo VM gezeigt werden, da diese sich am einfachsten gestaltet. Nach dem Download des entsprechenden VM-Images von [8] für VirtualBox, VMware oder KVM stehen nach dem Start sowohl eine grafische Benutzeroberfläche als auch eine komplette Hadoop-Installation zur Verfügung – mit allen nötigen Daemons und entsprechenden Konfigurationen, wie in Abbildung 1 zu sehen ist.

Abb. 1: Clouderas Demo-VM (clouder-demo-vm.png)

Die Installation von Spring for Hadoop geht mit wenigen Kommandozeilenoperationen leicht von der Hand, wenn auf dem Zielsystem bereits ein JDK installiert ist. Hadoop benötigt dieses in der Version 6.0. Das aktuelle Repository lässt sich mit

$ wget https://repo.springsource.org/libs-milestone-local/org/springframework/data/spring-data-hadoop/1.0.0.M2/spring-data-hadoop-1.0.0.M2-dist.zip

herunterladen und mit

$ unzip spring-data-hadoop-1.0.0.M2-dist.zip

im lokalen Verzeichnis en...

Java Magazin
Big Data mit Spring for Apache Hadoop

Frühjahrsdaten

Mit Spring for Apache Hadoop (SHDP) [1] stellte SpringSource vor einem Jahr eine Integration des Apache-Hadoop-Frameworks in das Spring-Data-Framework vor. Seit Juni dieses Jahres liegt das zweite Milestone-Release vor, das eine Reihe neuer Funktionalitäten mitbringt.

Ramon Wartala


SpringSource bzw. der Eigner VMware sieht dieses Release eng verknüpft mit dem zweiten Projekt, das die Firma zum Thema Big Data und Virtualisierung anbietet: dem Projekt Serengeti [2].

SHDP ermöglicht es über die von Spring bekannten Dependency Injections, Hadoop-Anwendungen zu konfigurieren. Hadoop-Anwendungen im SHDP-Kontext können dabei sowohl normale MapReduce-Implementierungen sein, als auch auf Funktionen von Hive [3], Pig [4], Cascading [5] oder HBase [6] zugreifen. Darüber hinaus unterstützt SHDP das von Spring Batch bekannte Workflow-Modell. Dabei können sowohl MapReduce-Jobs als auch Dateioperationen in Hadoops Dateisystem HDFS ausgeführt werden.

Dabei wird nicht nur das Standardnutzermodell von Hadoop, sondern auch die Kerberos-Authentifizierung unterstützt. Zudem bringt SHDP DAO-Support für HBase und Unterstützung für Cascading-Flows mit sich. Bei der Anwendung von Cascading stehen darüber hinaus Anbindungen der Spring-eigenen Abstraktionen für Streams (FTP, Twitter, RSS, Atom etc.) und Messages Queues wie JMS, TCP usw. zur Verfügung [7].

Installation

Hadoop lässt sich in vielen Umfeldern installieren – ob im eigenen Rechenzentrum als Cluster, auf virtualisierten Instanzen bei Amazon oder auf dem lokalen Rechner. Zum Ausprobieren eignet sich am besten eine bestehende Virtual-Machine-Installation der drei großen Anbieter kommerzieller Hadoop-Distributionen, die die VMs in der Regel auch für die eigenen Trainings kostenlos zur Verfügung stellen. Diese sind:

Clouderas Hadoop Demo VM [8]Hortonworks AMI [9]Greenplum HD [10]

Im Folgenden soll die Installation auf Clouderas Demo VM gezeigt werden, da diese sich am einfachsten gestaltet. Nach dem Download des entsprechenden VM-Images von [8] für VirtualBox, VMware oder KVM stehen nach dem Start sowohl eine grafische Benutzeroberfläche als auch eine komplette Hadoop-Installation zur Verfügung – mit allen nötigen Daemons und entsprechenden Konfigurationen, wie in Abbildung 1 zu sehen ist.

Abb. 1: Clouderas Demo-VM (clouder-demo-vm.png)

Die Installation von Spring for Hadoop geht mit wenigen Kommandozeilenoperationen leicht von der Hand, wenn auf dem Zielsystem bereits ein JDK installiert ist. Hadoop benötigt dieses in der Version 6.0. Das aktuelle Repository lässt sich mit

$ wget https://repo.springsource.org/libs-milestone-local/org/springframework/data/spring-data-hadoop/1.0.0.M2/spring-data-hadoop-1.0.0.M2-dist.zip

herunterladen und mit

$ unzip spring-data-hadoop-1.0.0.M2-dist.zip

im lokalen Verzeichnis en...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang