© Liashko/Shutterstock.com
Entwickler Magazin
Einführung in das Data Mining und grundlegende Techniken

Verborgene Schätze heben

Das Informationszeitalter ist von einer umfänglichen Datenverfügbarkeit gekennzeichnet. Gelegentlich spricht man auch von der „Informationsarmut im Datenüberfluss“. Neben bekannten statistischen Methoden der Datenauswertung kommen auch vermehrt moderne Algorithmen der Datenanalyse zum Einsatz. Dieses als Data Mining bezeichnete Vorgehen ist eine Form des maschinellen Lernens. Wir zeigen, was es damit auf sich hat.

Veikko Krypczyk, Elena Bochkor


Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind. Beim Data Mining kommen u. a. integrierte Methoden der künstlichen Intelligenz und der Statistik zum Einsatz. Das Data Mining erstreckt sich nicht nur auf die Prüfung manuell aufgestellter, sondern auch auf die Generierung neuer Hypothesen. Data Mining ist in einem umfassenden Prozess, dem so genannten Knowledge Discovery in Databases (KDD), eingeordnet (Abb. 1). KDD ist ein mehrstufiger Vorgang der Wissensgenerierung aus Daten. Unter KDD wird oft ein nichttrivialer Prozess verstanden, welcher zur Identifikation gültiger, neuartiger, potenziell nützlicher und verständlicher Muster in Daten dient. Nichttrivial bedeutet, dass der Vorgang nicht nur der Zusammenfassung von Daten dient, sondern vielmehr auch in der Lage ist, Abhängigkeiten und Beziehungen zwischen den Daten festzustellen. Die gefundenen Muster bzw. die daraus gewonnenen Erkenntnisse können im Idealfall verallgemeinert und auf andere Datensammlungen übertragen werden. Im Erfolgsfall wird also neues – bisher in dieser Form nicht bekanntes – Wissen erzeugt.

Abb. 1: Übersicht über die einzelnen Stufen des KDD-Prozesses [1]

Zu Beginn des KDD-Prozesses findet eine Selektion der relevanten Daten statt. Eventuell müssen diese vorher aufbereitet werden. Falls die Daten aus verschiedenen Quellen stammen, ist die Integration zu einem Gesamtdatensatz sinnvoll. Danach ist eine Bereinigung der gesammelten Daten notwendig. Im nächsten Schritt erfolgt eine Transformation der Daten durch Datenreduktion und Datenprojektion. Aufgabe des Data-Mining-Vorgangs ist es, mithilfe bestimmter Algorithmen Muster zu erkennen bzw. diese zu bilden. Erst die Interpretation dieser Muster im Kontext des vorliegenden Sachverhaltes kann zu neuen Erkenntnissen und damit zu neuem Wissen führen. Die grundsätzliche Idee besteht also darin, dass beiher nicht alle möglichen Informationen aus den vorliegenden Daten „herausgezogen“ sind. Also dass gewissermaßen verstecktes Wissen vorhanden ist, welches es nur zu „heben“ gilt. Was man unter Wissen versteht, ist im Kasten „Was ist Wissen“ beschrieben.

Was ist WissenWissen wird heute als die wichtigste Ressource in den Prozessen von Unternehmen und Organisationen aufgefasst. Eine besondere Eigenschaft ist, dass sich Wissen durch dessen Verwendung nicht verbraucht, sondern im Gegensatz dazu vermehrt. Durch die Anwendung von Wissen zur Lösung einer besti...

Entwickler Magazin
Einführung in das Data Mining und grundlegende Techniken

Verborgene Schätze heben

Das Informationszeitalter ist von einer umfänglichen Datenverfügbarkeit gekennzeichnet. Gelegentlich spricht man auch von der „Informationsarmut im Datenüberfluss“. Neben bekannten statistischen Methoden der Datenauswertung kommen auch vermehrt moderne Algorithmen der Datenanalyse zum Einsatz. Dieses als Data Mining bezeichnete Vorgehen ist eine Form des maschinellen Lernens. Wir zeigen, was es damit auf sich hat.

Veikko Krypczyk, Elena Bochkor


Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind. Beim Data Mining kommen u. a. integrierte Methoden der künstlichen Intelligenz und der Statistik zum Einsatz. Das Data Mining erstreckt sich nicht nur auf die Prüfung manuell aufgestellter, sondern auch auf die Generierung neuer Hypothesen. Data Mining ist in einem umfassenden Prozess, dem so genannten Knowledge Discovery in Databases (KDD), eingeordnet (Abb. 1). KDD ist ein mehrstufiger Vorgang der Wissensgenerierung aus Daten. Unter KDD wird oft ein nichttrivialer Prozess verstanden, welcher zur Identifikation gültiger, neuartiger, potenziell nützlicher und verständlicher Muster in Daten dient. Nichttrivial bedeutet, dass der Vorgang nicht nur der Zusammenfassung von Daten dient, sondern vielmehr auch in der Lage ist, Abhängigkeiten und Beziehungen zwischen den Daten festzustellen. Die gefundenen Muster bzw. die daraus gewonnenen Erkenntnisse können im Idealfall verallgemeinert und auf andere Datensammlungen übertragen werden. Im Erfolgsfall wird also neues – bisher in dieser Form nicht bekanntes – Wissen erzeugt.

Abb. 1: Übersicht über die einzelnen Stufen des KDD-Prozesses [1]

Zu Beginn des KDD-Prozesses findet eine Selektion der relevanten Daten statt. Eventuell müssen diese vorher aufbereitet werden. Falls die Daten aus verschiedenen Quellen stammen, ist die Integration zu einem Gesamtdatensatz sinnvoll. Danach ist eine Bereinigung der gesammelten Daten notwendig. Im nächsten Schritt erfolgt eine Transformation der Daten durch Datenreduktion und Datenprojektion. Aufgabe des Data-Mining-Vorgangs ist es, mithilfe bestimmter Algorithmen Muster zu erkennen bzw. diese zu bilden. Erst die Interpretation dieser Muster im Kontext des vorliegenden Sachverhaltes kann zu neuen Erkenntnissen und damit zu neuem Wissen führen. Die grundsätzliche Idee besteht also darin, dass beiher nicht alle möglichen Informationen aus den vorliegenden Daten „herausgezogen“ sind. Also dass gewissermaßen verstecktes Wissen vorhanden ist, welches es nur zu „heben“ gilt. Was man unter Wissen versteht, ist im Kasten „Was ist Wissen“ beschrieben.

Was ist WissenWissen wird heute als die wichtigste Ressource in den Prozessen von Unternehmen und Organisationen aufgefasst. Eine besondere Eigenschaft ist, dass sich Wissen durch dessen Verwendung nicht verbraucht, sondern im Gegensatz dazu vermehrt. Durch die Anwendung von Wissen zur Lösung einer besti...

Neugierig geworden?


   
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang