© best_vector/Shutterstock.com
Windows Developer
Big Data Storage und Analytics as a Service

Azure Data Lake

Seit Herbst 2015 gibt es Neues im umfangreichen Serviceportfolio auf der Azure-Plattform von Microsoft. Mit dem Azure Data Lake, bestehend aus Azure Data Lake Storage und Azure Data Lake Analytics, sowie der neuen Abfragesprache U-SQL bietet das Unternehmen aus Redmond sozusagen „Big Data Storage and Analytics as a Service“ an. Der folgende Artikel erklärt das Angebot, ordnet die Services und beleuchtet die Frage: Noch eine neue Sprache, jetzt wirklich?

Tillmann Eitelberg, Oliver Engels


Die Big-Data-Lösungslandschaft kann sich sicher nicht über ein niedriges Innovationstempo beschweren. Hat man sich mit einer Technik beschäftigt, steht schon die nächste Hypetechnologie zum Download bereit. Es ist schon fast erschreckend, wie viel Technologie Communities und Unternehmen auf den Markt werfen können. In Zeiten von Software as a Service mit kurzen Updatezyklen sind wir bereits einiges gewohnt: jedes Quartal neue Funktionen unseres CRM-Systems, dabei hatten wir doch noch nicht einmal die neuen Funktionalitäten vom letzten Quartal vollständig implementiert. Schöne neue Welt. Auch die Entwickler aus Washington State wollen ihren Teil dazu beitragen und schicken Azure Data Lake mit Storage und Analytics ins Rennen, um sich ein weiteres Stück vom Big-Data-Kuchen zu sichern.

Microsoft verfolgt mit dem Azure Data Lake (ADL) das Ziel, die Aufgaben von Speicherung und Analytik für Big-Data-Szenarien radikal zu vereinfachen und dem Anwender ein Produkt zu bieten, bei dem er sich nicht mehr um die Dimensionierung seines Storages oder die performante Architektur seines Hadoop-Clusters kümmern muss. Der Anwender soll „einfach“ nahezu unendlich viele Daten speichern und mit höchster Performance und Elastizität transformieren und analysieren können. Das Ganze erfolgt als „Pay-as-you-go“-Service auf der Microsoft-Azure-Plattform.

Data Lake

Bevor wir uns mit der Azure-Data-Lake-Technologie beschäftigen, ist es angebracht, den Begriff „Data Lake“ näher zu erläutern. Denn dieser wurde nicht in den Marketingabteilungen von Microsoft erdacht, sondern von James Dixon (CTO und Gründer von Pentaho), der in seinem Blog [1] im Oktober 2010 den Vergleich zwischen einem Datamart als Wasserflasche, gereinigt, abgefüllt und gebrauchsfertig, und einem „Data Lake“ zog. Ein „Datensee“, der durch verschiedene Zuflüsse gespeist wird, in den man eintauchen, Proben nehmen oder für weitere Verarbeitung Wasser abzapfen kann. Auch ist es möglich, dort zu fischen, und vielleicht angelt man sich im Datensee interessante Erkenntnisse, die der Analyst vorher nicht kannte (Abb. 1). Genug Metapher: Ein Repository kann unendliche Mengen an Daten aufnehmen, ohne dass der Anwender vorab wissen muss, ob und wie er diese verwenden wird. Außerdem kann es von unterschiedlichsten Systemen genutzt werden. Daher ist die Idee eines Repositorys ein interessanter Denkansatz gewesen, der heute zentraler Bestandteil des Hadoop-Ecosystems ist.

Abb. 1: Datensee/Data Lake

Der Data Lake darf auch kritisch g...

Windows Developer
Big Data Storage und Analytics as a Service

Azure Data Lake

Seit Herbst 2015 gibt es Neues im umfangreichen Serviceportfolio auf der Azure-Plattform von Microsoft. Mit dem Azure Data Lake, bestehend aus Azure Data Lake Storage und Azure Data Lake Analytics, sowie der neuen Abfragesprache U-SQL bietet das Unternehmen aus Redmond sozusagen „Big Data Storage and Analytics as a Service“ an. Der folgende Artikel erklärt das Angebot, ordnet die Services und beleuchtet die Frage: Noch eine neue Sprache, jetzt wirklich?

Tillmann Eitelberg, Oliver Engels


Die Big-Data-Lösungslandschaft kann sich sicher nicht über ein niedriges Innovationstempo beschweren. Hat man sich mit einer Technik beschäftigt, steht schon die nächste Hypetechnologie zum Download bereit. Es ist schon fast erschreckend, wie viel Technologie Communities und Unternehmen auf den Markt werfen können. In Zeiten von Software as a Service mit kurzen Updatezyklen sind wir bereits einiges gewohnt: jedes Quartal neue Funktionen unseres CRM-Systems, dabei hatten wir doch noch nicht einmal die neuen Funktionalitäten vom letzten Quartal vollständig implementiert. Schöne neue Welt. Auch die Entwickler aus Washington State wollen ihren Teil dazu beitragen und schicken Azure Data Lake mit Storage und Analytics ins Rennen, um sich ein weiteres Stück vom Big-Data-Kuchen zu sichern.

Microsoft verfolgt mit dem Azure Data Lake (ADL) das Ziel, die Aufgaben von Speicherung und Analytik für Big-Data-Szenarien radikal zu vereinfachen und dem Anwender ein Produkt zu bieten, bei dem er sich nicht mehr um die Dimensionierung seines Storages oder die performante Architektur seines Hadoop-Clusters kümmern muss. Der Anwender soll „einfach“ nahezu unendlich viele Daten speichern und mit höchster Performance und Elastizität transformieren und analysieren können. Das Ganze erfolgt als „Pay-as-you-go“-Service auf der Microsoft-Azure-Plattform.

Data Lake

Bevor wir uns mit der Azure-Data-Lake-Technologie beschäftigen, ist es angebracht, den Begriff „Data Lake“ näher zu erläutern. Denn dieser wurde nicht in den Marketingabteilungen von Microsoft erdacht, sondern von James Dixon (CTO und Gründer von Pentaho), der in seinem Blog [1] im Oktober 2010 den Vergleich zwischen einem Datamart als Wasserflasche, gereinigt, abgefüllt und gebrauchsfertig, und einem „Data Lake“ zog. Ein „Datensee“, der durch verschiedene Zuflüsse gespeist wird, in den man eintauchen, Proben nehmen oder für weitere Verarbeitung Wasser abzapfen kann. Auch ist es möglich, dort zu fischen, und vielleicht angelt man sich im Datensee interessante Erkenntnisse, die der Analyst vorher nicht kannte (Abb. 1). Genug Metapher: Ein Repository kann unendliche Mengen an Daten aufnehmen, ohne dass der Anwender vorab wissen muss, ob und wie er diese verwenden wird. Außerdem kann es von unterschiedlichsten Systemen genutzt werden. Daher ist die Idee eines Repositorys ein interessanter Denkansatz gewesen, der heute zentraler Bestandteil des Hadoop-Ecosystems ist.

Abb. 1: Datensee/Data Lake

Der Data Lake darf auch kritisch g...

Neugierig geworden?


   
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang