© Liashko/Shutterstock.com
Einführung in das Data Mining und grundlegende Techniken

Verborgene Schätze heben


Das Informationszeitalter ist von einer umfänglichen Datenverfügbarkeit gekennzeichnet. Gelegentlich spricht man auch von der „Informationsarmut im Datenüberfluss“. Neben bekannten statistischen Methoden der Datenauswertung kommen auch vermehrt moderne Algorithmen der Datenanalyse zum Einsatz. Dieses als Data Mining bezeichnete Vorgehen ist eine Form des maschinellen Lernens. Wir zeigen, was es damit auf sich hat.

Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind. Beim Data Mining kommen u. a. integrierte Methoden der künstlichen Intelligenz und der Statistik zum Einsatz. Das Data Mining erstreckt sich nicht nur auf die Prüfung manuell aufgestellter, sondern auch auf die Generierung neuer Hypothesen. Data Mining ist in einem umfassenden Prozess, dem so genannten Knowledge Discovery in Databases (KDD), eingeordnet (Abb. 1). KDD ist ein mehrstufiger Vorgang der Wissensgenerierung aus Daten. Unter KDD wird oft ein nichttrivialer Prozess verstanden, welcher zur Identifikation gültiger, neuartiger, potenziell nützlicher und verständlicher Muster in Daten dient. Nichttrivial bedeutet, dass der Vorgang nicht nur der Zusammenfassung von Daten dient, sondern vielmehr auch in der Lage ist, Abhängigkeiten und Beziehungen zwischen den Daten festzustellen. Die gefundenen Muster bzw. die daraus gewonnenen Erkenntnisse können im Idealfall verallgemeinert und auf andere Datensammlungen übertragen werden. Im Erfolgsfall wird also neues – bisher in dieser Form nicht bekanntes – Wissen erzeugt.

krypczyk_datamining_1.tif_fmt1.jpgAbb. 1: Übersicht über die einzelnen Stufen des KDD-Prozesses [1]

Zu Beginn des KDD-Prozesses findet eine Selektion der relevanten Daten statt. Eventuell müssen diese vorher aufbereitet werden. Falls die Daten aus verschiedenen Quellen stammen, ist die Integration zu einem Gesamtdatensatz sinnvoll. Danach ist eine Bereinigung der gesammelten Daten notwendig. Im nächsten Schritt erfolgt eine Transformation der Daten durch Datenreduktion und Datenprojektion. Aufgabe des Data-Mining-Vorgangs ist es, mithilfe bestimmter Algorithmen Muster zu erkennen bzw. diese zu bilden. Erst die Interpretation dieser Muster im Kontext des vorliegenden Sachverhaltes kann zu neuen Erkenntnissen und damit zu neuem Wissen führen. Die grundsätzliche Idee besteht also darin, dass beiher nicht alle möglichen Informationen aus den vorliegenden Daten „herausgezogen“ sind. Also dass gewissermaßen verstecktes Wissen vorhanden ist, welches es nur zu „heben“ gilt. Was man unter Wissen versteht, ist im Kasten „Was ist Wissen“ beschrieben.

Was ist Wissen

Wissen wird heute als die wichtigste Ressource in den Prozessen von Unternehmen und Organisationen aufgefasst. Eine besondere Eigenschaft ist, dass sich Wissen durch dessen Verwendung nicht verbraucht, sondern im Gegensatz dazu vermehrt. Durch die Anwendung von Wissen zur Lösung einer bestimmten Problemstellung entstehen neue Erfahrungen, die zur Erweiterung des Wissens führen. Eine eindeutige Definition des Terminus Wissen ist nicht verfügbar. Dennoch ist eine Einordnung in den Kontext aus Zeichen, Daten, Informationen und Wissen möglich:

  • Zeichen: Hierbei handelt es sich lediglich um die einzelnen Zeichen, zum Beispiel in alphanumerischer Syntax. Die Bedeutung oder Reihenfolge der einzelnen Zeichen spielt an dieser Stelle noch keine Rolle. Die Folge aus „EFAB63“ sind lediglich 6 alphanumerische Zeichen, ohne weiteren Bedeutungszusammenhang.

  • Daten: Werden die Zeichen in eine bestimmte Reihenfolge bzw. Syntax gebracht, so handelt es sich um Daten bzw. um einen Datensatz. Eben genannte Zeichenkette könnte syntaktisch für ein zulässiges Kfz-Kennzeichnen (EF AB 63) stehen.

  • Information: Daten, welche vor dem Hintergrund eines bestimmten Kontexts interpretiert werden, stellen Informationen dar. Informationen dienen dazu einen Sachverhalt zu bewerten oder eine Entscheidung zu treffen. Diese Bewertung bzw. Entscheidung beruht jeweils auf den Erfahrungshintergrund der jeweiligen Person.

  • Wissen: Informationen, die verarbeitet werden und zum Verständnis eines bestimmten Sachverhaltes führen, werden als Wissen bezeichnet. Von besonderer Bedeutung ist die Abstraktion vom Einzelfall. Ziel ist es zu allgemeingültigen Aussagen zu gelangen.

Arten von Wissen

Das vorhandene Wissen kann in implizites und explizites Wissen eingeteilt werden. Implizites Wissen ist „in den Köpfen“ einzelner Personen vorhanden. Es stellt die Basis für das Handeln von Personen dar. Ebenso spiegelt es sich in Idealen, Werten und Gefühlen wider. Es ist schwer formalisierbar, kommunizierbar und teilbar. Damit ist es auch schwer in anderer Form (zum Beispiel innerhalb von Wissensdatenbanken) zur Verfügung zu stellen. Explizites Wissen ist dagegen in Medien gespeichert. Dieses kann daher mittels Datenverarbeitung übertragen und gespeichert werden. Auf anderer Ebene wird zwischen privatem und kollektivem Wissen unterschieden. Privates Wissen befindet sich nur im Zugriff von einer von wenigen Personen. Auf kollektives Wissen haben mehrere Personen zur gleichen Zeit Zugriff.

Wissensträger

Als Wissensträger bezeichnet man Objekte, Personen oder Systeme, die in der Lage sind, Wissen zu speichern oder darzustellen. Diese Wissensspeicher dienen nicht nur der Verwaltung des aktuell vorhanden Wissens, sondern auch zur aktiven Weiterentwicklung des Wissens:

  • Dokumentationen: Dienen der Beschreibung von Sachverhalten und Abläufen. Dokumentationen können beispielsweise Organisationshandbücher oder Beschreibungen zu Systemen sein.

  • Daten-, Methoden- und Modelldatenbanken: Können unterschiedliche Arten von Daten beinhalten. Klassische Datenbanken enthalten Datensätze eines Typs und haben neben den operativen Aufgaben bei entsprechender Langfristigkeit auch eine Wissenskomponente, in dem sie zeitliche Entwicklungen abbilden. Methodendatenbanken umfassen Sammlungen von Methoden. Auf diese Informationen kann bei der Auswahl von Verfahren zurückgegriffen werden. Modelldatenbanken beinhalten Modelle für bestimmte Fragestellungen. Sie stellen eine Verbindung zwischen den Daten und Methoden her.

  • Expertensysteme: Es handelt sich um wissensbasierte Softwaresysteme, bei denen das Fachwissen zu einem bestimmten Bereich explizit abgebildet wird.

  • Experten: Sind Personen, die über ein hohes Spezialwissen zu einem bestimmten Fachgebiet verfügen. Sie können ihr Wissen auf neue Situationen und Sachverhalte anwenden. Experten sind in der Lage – im Gegensatz zu technischen Systemen – das vorhandene Wissen weiterzuentwickeln.

  • Unternehmenskultur: Die Unternehmenskultur umfasst die Werte, Normen und die Kultur, welche die Unternehmung maßgeblich prägen. Sie wird durch die Geschichte des Unternehmens und seiner Umwelt beeinflusst. Das organisatorische Gedächtnis stellt das Wissen einer Unternehmung als Ganzes dar.

Historische Entwicklung

Die Ideen der Wissensgewinnung durch eine spezialisierte Auswertung von Massendaten sind nicht neu. Wichtige Meilensteine der Entwicklung aus historischer Perspektive sind in Tabelle 1 zusammengefasst.

Entwicklungsschritt

Fragestellung (Beispiel)

Etablierte Technologie

Anbieter

Merkmale

Data Collection (ab 1960)

Wie hoch waren die Einkünfte in den letzten 5 Jahren?

Computer und Disketten

IBM

Statische Bereitstellung von Informationen

Data Access (ab 1980)

Wie war die Absatzentwicklung in den letzten 5 Jahren?

Relationale Datenbanken (RDBMS), Structured Query Language (SQL), ODBC

Oracle, Sybase, Informix, IBM, Microsoft

Dynamische Bereitstellung von Informationen

Data Warehousing und Decision Support (ab 1990)

Was waren die Absätze in New England im März? (Detailansicht auf eine Region)

Online analy...

Neugierig geworden? Wir haben diese Angebote für dich:

Angebote für Gewinner-Teams

Wir bieten Lizenz-Lösungen für Teams jeder Größe: Finden Sie heraus, welche Lösung am besten zu Ihnen passt.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang