© Excellent backgrounds/Shutterstock.com
Java Magazin
Apache Mahout, Teil 3: Klassifizieren von Daten

Die Guten ins Töpfchen ...

Woher weiß ein System eigentlich, welche Mail in meinem Spamordner landen soll und welche ich vielleicht doch lieber lesen möchte? Täglich werden Abermillionen an Mails versendet, und dabei ist wahrscheinlich nur ein kleiner Bruchteil wirklich lesenswert. Über die automatische Klassifizierung von E-Mails lernen Systeme, Spam immer besser zu erkennen. Helfen diese Mechanismen auch im Aufbau von Empfehlungssystemen?

Karsten Voigt, David Broßeit


In den ersten beiden Teilen dieser Reihe haben wir uns mit Produktempfehlungen und der Gruppenbildung von Kunden mit Mahout [1] auseinandergesetzt. In beiden Fällen wurde dabei eine Vielzahl an Daten analysiert und aufbereitet, ohne dass dabei dem System eine feste Zuordnung von Elementen mitgegeben wurde. Das Ergebnis der Analyse war nicht direkt vorhersehbar. Wenn man nun eine bestehende Ansammlung von Mails automatisch clustern lässt, wird man sicherlich interessante Gruppen erhalten, und eventuell sind auch einige sinnvolle dabei (z. B. Mails von der Familie). Dass aber Spam automatisch in einer eigenen Gruppe landet, ist eher unwahrscheinlich. Das Bilden von Gruppen läuft also ohne Aufsicht ab und so wird die Clusterbildung auch als Unsupervised Learning bezeichnet.

Die Klassifizierung verfolgt nun einen etwas anderen Ansatz. Aus einer gegebenen bekannten Größe an Elementen und deren Zuordnung zu einer Gruppe wird versucht, ein Vorgehen abzuleiten, das neue Elemente automatisch der richtigen Gruppe zuordnet (Supervised Learning). Die Zuordnung von E-Mails zu Spam funktioniert in einem solchen Fall, weil vorher bestehende Mails bereits manuell als Spam markiert wurden.

Ein anderes klassisches Beispiel für Klassifizierungen sind die Mechanismen zur Fraud Detection. Hier wird bei der Abwicklung von Zahlungen über Kreditkarten aus Erkenntnissen der Vergangenheit versucht, untypische Kaufmuster eines Kunden zu identifizieren und entsprechend als Betrug/Nichtbetrug einzugruppieren. An diesen beiden Beispielen erkennt man bereits, dass bei der Klassifizierung von Elementen meist nur eine überschaubare Anzahl an Zielgruppen als Ergebnis erwartet wird. Im einfachsten Fall ist dies nur eine Zuordnung zu Ja oder Nein in Bezug auf ein bestimmtes Merkmal. Die Klassifizierung wird also eingesetzt, wenn sich die Ausgangsdaten gut kategorisieren lassen.

Offene Fragestellungen bzw. eine theoretisch unbegrenzte Anzahl von Gruppen sind für die Klassifizierung nicht geeignet. Bevor man also mit der Klassifizierung startet, sollte man überlegen, ob die eigenen Daten und die gewünschte Aussage wirklich für die Klassifizierung geeignet sind. Es besteht hier natürlich auch die Möglichkeit der Kombination von Algorithmen, so könnte man über die Clusterbildung die potenziellen Kategorien einer Klassifizierung bestimmen. Gleichzeitig beginnt die Klassifizierung immer mit bekannten Zuordnungen. Wenn noch nie eine Mail als Spam markiert wurde, kann auch keine Klassifizierung v...

Java Magazin
Apache Mahout, Teil 3: Klassifizieren von Daten

Die Guten ins Töpfchen ...

Woher weiß ein System eigentlich, welche Mail in meinem Spamordner landen soll und welche ich vielleicht doch lieber lesen möchte? Täglich werden Abermillionen an Mails versendet, und dabei ist wahrscheinlich nur ein kleiner Bruchteil wirklich lesenswert. Über die automatische Klassifizierung von E-Mails lernen Systeme, Spam immer besser zu erkennen. Helfen diese Mechanismen auch im Aufbau von Empfehlungssystemen?

Karsten Voigt, David Broßeit


In den ersten beiden Teilen dieser Reihe haben wir uns mit Produktempfehlungen und der Gruppenbildung von Kunden mit Mahout [1] auseinandergesetzt. In beiden Fällen wurde dabei eine Vielzahl an Daten analysiert und aufbereitet, ohne dass dabei dem System eine feste Zuordnung von Elementen mitgegeben wurde. Das Ergebnis der Analyse war nicht direkt vorhersehbar. Wenn man nun eine bestehende Ansammlung von Mails automatisch clustern lässt, wird man sicherlich interessante Gruppen erhalten, und eventuell sind auch einige sinnvolle dabei (z. B. Mails von der Familie). Dass aber Spam automatisch in einer eigenen Gruppe landet, ist eher unwahrscheinlich. Das Bilden von Gruppen läuft also ohne Aufsicht ab und so wird die Clusterbildung auch als Unsupervised Learning bezeichnet.

Die Klassifizierung verfolgt nun einen etwas anderen Ansatz. Aus einer gegebenen bekannten Größe an Elementen und deren Zuordnung zu einer Gruppe wird versucht, ein Vorgehen abzuleiten, das neue Elemente automatisch der richtigen Gruppe zuordnet (Supervised Learning). Die Zuordnung von E-Mails zu Spam funktioniert in einem solchen Fall, weil vorher bestehende Mails bereits manuell als Spam markiert wurden.

Ein anderes klassisches Beispiel für Klassifizierungen sind die Mechanismen zur Fraud Detection. Hier wird bei der Abwicklung von Zahlungen über Kreditkarten aus Erkenntnissen der Vergangenheit versucht, untypische Kaufmuster eines Kunden zu identifizieren und entsprechend als Betrug/Nichtbetrug einzugruppieren. An diesen beiden Beispielen erkennt man bereits, dass bei der Klassifizierung von Elementen meist nur eine überschaubare Anzahl an Zielgruppen als Ergebnis erwartet wird. Im einfachsten Fall ist dies nur eine Zuordnung zu Ja oder Nein in Bezug auf ein bestimmtes Merkmal. Die Klassifizierung wird also eingesetzt, wenn sich die Ausgangsdaten gut kategorisieren lassen.

Offene Fragestellungen bzw. eine theoretisch unbegrenzte Anzahl von Gruppen sind für die Klassifizierung nicht geeignet. Bevor man also mit der Klassifizierung startet, sollte man überlegen, ob die eigenen Daten und die gewünschte Aussage wirklich für die Klassifizierung geeignet sind. Es besteht hier natürlich auch die Möglichkeit der Kombination von Algorithmen, so könnte man über die Clusterbildung die potenziellen Kategorien einer Klassifizierung bestimmen. Gleichzeitig beginnt die Klassifizierung immer mit bekannten Zuordnungen. Wenn noch nie eine Mail als Spam markiert wurde, kann auch keine Klassifizierung v...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang