© Excellent backgrounds/Shutterstock.com
Java Magazin
Streams, Jobs und Real Time Analytics

Tackling Big Data Complexity

Wenn man von Big Data spricht, redet man häufig über Hadoop oder NoSQL-Datenbanken. Dabei ist Big Data viel mehr als bloße Persistenz. Daten müssen gesammelt, verarbeitet und exportiert werden. Real Time Analytics sind ein weiteres großes Thema. Spring XD ist ein neues Mitglied im Spring-Ökosystem, das sich genau diese Themen auf die Fahne geschrieben hat. Mit einer einfachen DSL können Datenströme und Batch-Jobs erzeugt und Real-Time-Auswertungen auf den Datenströmen konfiguriert werden. Unter der Haube erfindet Spring XD das Rad nicht neu. Es basiert stark auf bewährten Projekten wie Spring Batch und Spring Integration und nutzt Spring Data und Spring for Hadoop für den Big-Data-Bezug. Bald erscheint Version 1.0 - höchste Zeit, einen genaueren Blick auf die Features zu werfen.

Dennis Schulte, Tobias Flohre


Die Digitalisierung der Welt, technische Erneuerungen und Konkurrenzdruck sorgen für Herausforderungen im Datenmanagement, denen sich jedes Unternehmen heutzutage stellen muss.

Datenmenge

Auch wenn man bei Big Data vielleicht zunächst an die Suchmaschinen und sozialen Netzwerke dieser Welt denkt, so ist es doch ein Fakt, dass sich die zu verarbeitenden Datenmengen in jedem Unternehmen erhöhen, und dass viele an die Grenzen ihrer einen relationalen Datenbank stoßen. Ob man das nun Big Data nennt oder nicht, ist Definitionsfrage. Keine Frage ist, dass man aktiv werden muss.

Heterogene Datenquellen und Datenformate

Dies ist einerseits eine Folge aus dem ersten Punkt, da bei großen Datenmengen andere Datenspeicher benötigt werden, aber der ursprüngliche operative Datenspeicher natürlich weiter betrieben wird. So existieren nun beispielsweise ein Hadoop-Cluster und eine relationale Datenbank parallel. Andererseits werden Daten immer häufiger ihrer Natur entsprechend abgelegt: ein Graph in einer Graphdatenbank, ein Dokument in einer Dokumentendatenbank. Und auch im Bereich Messaging haben sich in den letzten Jahren die Protokolle und Produkte vervielfacht. Einerseits haben unterschiedliche Datenquellen unterschiedliche Datenformate, andererseits werden aber auch immer mehr un- und semistrukturierte Daten aufgenommen und verarbeitet.

Stream Processing und Real Time Analytics

Online bzw. Stream Processing wird immer relevanter. Daten zu sammeln und dann irgendwann im Batch zu verarbeiten, kann der entscheidende Wettbewerbsnachteil gegenüber der Konkurrenz sein. Das gilt noch mehr für den Analytics-Bereich. Warum erst alle Daten speichern und dann zeitverzögert auswerten, wenn man sie direkt bei Ankunft auswerten kann?

Was folgt daraus?

Mit vielen unterschiedlichen Datenquellen und Datenformaten wird die Datenintegration immer anspruchsvoller. Daten bzw. ihre Essenz werden immer häufiger dort benötigt, wo sie nicht vorhanden sind. Wenn beispielsweise Daten aus einer Datenquelle ins Hadoop Distributed File System (HDFS) gestreamt werden, eine Auswertung darüber aber in der operativen relationalen Datenbank benötigt wird, ist es notwendig, eine Datenpipeline aufzubauen, die zum einen das Streamen ins HDFS abdeckt, andererseits aber die Auswertungsjobs anstößt und ihre Ergebnisse in die relationale Datenbank pumpt.

Ein Tool, das das Erstellen von Datenpipelines unterstützt, muss mit unterschiedlichsten Datenquellen umgehen können und die Transformation in unterschiedliche ...

Java Magazin
Streams, Jobs und Real Time Analytics

Tackling Big Data Complexity

Wenn man von Big Data spricht, redet man häufig über Hadoop oder NoSQL-Datenbanken. Dabei ist Big Data viel mehr als bloße Persistenz. Daten müssen gesammelt, verarbeitet und exportiert werden. Real Time Analytics sind ein weiteres großes Thema. Spring XD ist ein neues Mitglied im Spring-Ökosystem, das sich genau diese Themen auf die Fahne geschrieben hat. Mit einer einfachen DSL können Datenströme und Batch-Jobs erzeugt und Real-Time-Auswertungen auf den Datenströmen konfiguriert werden. Unter der Haube erfindet Spring XD das Rad nicht neu. Es basiert stark auf bewährten Projekten wie Spring Batch und Spring Integration und nutzt Spring Data und Spring for Hadoop für den Big-Data-Bezug. Bald erscheint Version 1.0 - höchste Zeit, einen genaueren Blick auf die Features zu werfen.

Dennis Schulte, Tobias Flohre


Die Digitalisierung der Welt, technische Erneuerungen und Konkurrenzdruck sorgen für Herausforderungen im Datenmanagement, denen sich jedes Unternehmen heutzutage stellen muss.

Datenmenge

Auch wenn man bei Big Data vielleicht zunächst an die Suchmaschinen und sozialen Netzwerke dieser Welt denkt, so ist es doch ein Fakt, dass sich die zu verarbeitenden Datenmengen in jedem Unternehmen erhöhen, und dass viele an die Grenzen ihrer einen relationalen Datenbank stoßen. Ob man das nun Big Data nennt oder nicht, ist Definitionsfrage. Keine Frage ist, dass man aktiv werden muss.

Heterogene Datenquellen und Datenformate

Dies ist einerseits eine Folge aus dem ersten Punkt, da bei großen Datenmengen andere Datenspeicher benötigt werden, aber der ursprüngliche operative Datenspeicher natürlich weiter betrieben wird. So existieren nun beispielsweise ein Hadoop-Cluster und eine relationale Datenbank parallel. Andererseits werden Daten immer häufiger ihrer Natur entsprechend abgelegt: ein Graph in einer Graphdatenbank, ein Dokument in einer Dokumentendatenbank. Und auch im Bereich Messaging haben sich in den letzten Jahren die Protokolle und Produkte vervielfacht. Einerseits haben unterschiedliche Datenquellen unterschiedliche Datenformate, andererseits werden aber auch immer mehr un- und semistrukturierte Daten aufgenommen und verarbeitet.

Stream Processing und Real Time Analytics

Online bzw. Stream Processing wird immer relevanter. Daten zu sammeln und dann irgendwann im Batch zu verarbeiten, kann der entscheidende Wettbewerbsnachteil gegenüber der Konkurrenz sein. Das gilt noch mehr für den Analytics-Bereich. Warum erst alle Daten speichern und dann zeitverzögert auswerten, wenn man sie direkt bei Ankunft auswerten kann?

Was folgt daraus?

Mit vielen unterschiedlichen Datenquellen und Datenformaten wird die Datenintegration immer anspruchsvoller. Daten bzw. ihre Essenz werden immer häufiger dort benötigt, wo sie nicht vorhanden sind. Wenn beispielsweise Daten aus einer Datenquelle ins Hadoop Distributed File System (HDFS) gestreamt werden, eine Auswertung darüber aber in der operativen relationalen Datenbank benötigt wird, ist es notwendig, eine Datenpipeline aufzubauen, die zum einen das Streamen ins HDFS abdeckt, andererseits aber die Auswertungsjobs anstößt und ihre Ergebnisse in die relationale Datenbank pumpt.

Ein Tool, das das Erstellen von Datenpipelines unterstützt, muss mit unterschiedlichsten Datenquellen umgehen können und die Transformation in unterschiedliche ...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang