© LOVE YOU/Shutterstock.com
Ein kompakter Einstieg in Recommender-Systeme

Eine gute Empfehlung


Die Grundlage von Empfehlungssystemen, wie sie für Amazon und Co. gelten, ist keine Zauberei. Auf verständliche Weise vermittelt der folgende Beitrag die notwendigen Zusammenhänge, um sich bei Interesse tief gehender mit der Thematik vertraut zu machen.

Die Motivation, ein Recommender System, sprich ein Empfehlungssystem, anzubieten, hat verschiedene Ausprägungen. Der Maßstab für die Güte eines solchen Service ist, wie gut die ausgesprochenen Empfehlungen den Bedürfnissen des Kunden tatsächlich auch entsprechen. Recommender sind Werkzeuge, die bei einer Entscheidungsfindung unterstützen. Sie sind allerdings nicht gleichzusetzen mit sogenannten Expertensystemen, die sich der Methoden der künstlichen Intelligenz (KI) bedienen. Im Wesentlichen kann man sagen, dass ein Expertensystem auf der Grundlage einer definierten Wissensbasis und eines zugehörigen Regelsatzes die höchste Wahrscheinlichkeit einer Diagnose ermittelt und diese anhand von Fakten begründet. Ein klassisches Beispiel ist das Diagnostizieren einer Krankheit anhand bestimmter Symptome. Es ist für das Expertensystem nicht maßgeblich, wie oft diese Krankheit bereits erfolgreich diagnostiziert wurde. Bei einem Recommender ist genau diese Häufigkeit – wie oft ein Merkmal zutrifft – das Entscheidungskriterium. Bei der Vielzahl der angebotenen Services im Internet ergibt sich denklich eine große Fülle von möglichen Anwendungen. Diese können beispielsweise Kinofilme, Musiktitel, Wahlpflichtkurse einer Schule, Artikel eines Onlineshops oder Ähnliches sein.

Das, was die Empfehlung beinhaltet, wird als Item (Gegenstand) bezeichnet. Ein Item kann mehrere Eigenschaften (Merkmale) besitzen. Merkmale werden auch oft als Attribute bezeichnet. Oftmals ist es vorteilhaft, den Merkmalen eine Rangordnung (Präferenz) zuzuweisen. Der mathematische Ausdruck dafür lautet Wichtung und beschreibt, ob ein Merkmal mit einem hohen oder geringen Gewicht bei der Berücksichtigung einfließt.

Spiel der Zahlen

Auch wenn es im ersten Moment lästig erscheinen mag, gehört ein wenig Rechenkunst dazu. Aber keine Sorge, die hier besprochenen Dinge wurden auf ein absolutes Minimum reduziert, und mehr als die Grundrechenarten werden für den kleinen Ausflug in die Statistik nicht benötigt. Weil man aber bekanntlich nur einer Statistik Glauben schenken soll, die man selbst gefälscht hat, ist ein wenig Wissen darüber, wie und warum Dinge auf eine bestimmte Art und Weise gezählt werden, recht nützlich.

Grundsätzlich unterscheidet man dabei zwei Ausprägungen: Aufzählen und Abzählen. Beim Aufzählen von Dingen kommt eine Liste zustande, deren Inhalt die vorkommenden Items enthält. Bei mehrfachem Vorkommen eines Items wird dies jedoch nur einmal aufgezählt. Es gibt keinen Rückschluss über die Häufigkeit des Vorkommens eines Items. Beim Abzählen hingegen wird diese Frage beantwortet. Als Resultat erhält man die exakte Anzahl des Vorkommens eines ausgewählten Items. In den meisten Fällen ist eine Empfehlung eine Mischform beider Strategien. Die Ergebnisliste der Items ist nach der höchsten Wahrscheinlichkeit absteigend sortiert. Das Ziel ist es, Items zu ermitteln, deren Merkmale größtmöglich mit den Vorlieben beziehungsweise den Bedürfnissen des Kunden übereinstimmen.

Die einfachste Möglichkeit, über eine Menge von Zahlen einen Erwartungswert, auch Mittelwert genannt, zu bestimmen, ist die Berechnung des arithmetischen Mittels. Eine gebräuchlichere Bezeichnung lautet Durchschnitt und ergibt sich aus dem Aufsummieren aller ermittelten Werte. Die Summe wird anschließend durch die Anzahl der berücksichtigten Werte dividiert:

schulz_formel1.tif_fmt1.jpg

Der Erwartungswert liegt für diesen Fall innerhalb des Zahlenbereichs des kleinsten und des größten auftretenden Werts. Diese Grenzen bezeichnet man als Spannweite. Durch verschiedene Einflüsse kann es allerdings vorkommen, dass ein Wert nicht zu den restlichen ermittelten Werten passt. Am einfachsten ist es, solche Ausreißer nicht zu berücksichtigen. Da die Verarbeitung allerdings voll automatisiert erfolgt, muss ein solcher Ausreißer programmatisch in der Berechnung aussortiert werden. Das kann man beispielsweise dadurch erreichen, indem die Abstände zwischen benachbarten Items ermittelt werden. Das Festlegen eines Schwellwerts, der dafür Sorge trägt, Ausreißer zu eliminieren, ist eine mögliche Option. Typischerweise befinden sich Ausreißer an den Grenzen der Messreihen, weswegen diese Strategie einfach, aber wirkungsvoll ist.

Eine weitere Art, den Mittelwert zu bestimmen, ist die Verwendung des gewichteten Mittels. Dieses Verfahren berücksichtigt die Häufigkeit des Auftretens eines Elements. Das Item (x) wird mit der Häufigkeit (ni), mit der es in der Datenbasis auftritt, multipliziert, und diese Ergebnisse sind anschließend aufzusummieren und durch die gesamte Anzahl aller vorkommenden Items zu dividieren. Daraus ergibt sich die nachfolgende Formel:

schulz_formel2.tif_fmt1.jpg

Als Modus bezeichnet man genau das Item, das am Häufigsten in der betrachteten Datenbasis vorkommt. Basiert die Datenbasis hingegen auf Zuwachs, wie es beispielsweise bei Zinsen der Fall ist, eignet sich die Anwendung des arithmetischen Mittels nicht mehr. Für diese Problemstellungen greift man meist zum geometrischen Mittel, das durch folgende Formel definiert ist:

schulz_formel3.tif_fmt1.jpg

Diese kleine Einführung soll uns nun genügen, und es sei zusätzlich auf die sehr umfangreich verfügbare Literatur über Statistik und Stochastik verwiesen. Eine letzte Anmerkung für mathematisch interessierte Leser: Die frei verfügbare Programm...

Neugierig geworden? Wir haben diese Angebote für dich:

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang