© DrHitch/Shutterstock.com
Shortcuts
Einstieg ins Machine Learning

2 Text-Preprocessing für ML

Die meisten Verfahren im Bereich des Machine Learnings (ML) arbeiten mit rein numerischem Input. Bei den meisten Arten von Daten, z. B. Tabellen von Messwerten oder Bildern, ist die Umwandlung in die richtige Form offensichtlich. Aber wie können wir Machine Learning mit Buchstaben und Wörtern betreiben? Der Erfolg hängt vom richtigen Preprocessing ab.

Shortcut Autorenteam


Erfolgreiches Machine Learning ist meist zu 75 Prozent von richtigem Preprocessing abhängig. Da die richtige Repräsentation der Daten bei Text nicht eindeutig ist, sondern immer von der Zielsetzung und dem verwendeten Verfahren abhängt, hat das Preprocessing bei der Arbeit mit Text einen noch höheren Stellenwert als ohnehin schon. In diesem Kapitel wollen wir uns der Frage widmen, wie wir dieses wichtige Preprocessing richtig umsetzen, und welche Textdarstellungen es gibt, um den größtmöglichen Erfolg mit unseren ML-Algorithmen zu erzielen.Die meisten ML-Algorithmen, insbesondere bei Deep Learning (Schichten von neuronalen Netzen), benötigen Input in Form von Tensoren. Praktisch kann man bei der Entwicklung Tensoren mit mehrdimensionalen Arrays von Fließkommawerten gleichsetzen. Die Abbildungen 2.1, 2.2 und 2.3 zeigen Beispiele für Tensoren.Bei numerischen tabellarischen Daten oder Bildern liegt die Umwandlung auf der Hand. Schließlich haben die Daten prinzipiell schon die richtige Form. Die meisten ML-Verfahren erwarten aber nicht nur Tensoren, sondern auch, dass sie immer dieselbe Größe haben. Tabellarische Daten sind meist gleichförmig, die Datenpunkte haben dieselbe Anzahl Spalten (= dieselbe Dimension). Bilder lassen sich trivial vergrößern oder verkleinern und so in Matrizen fester Größe umwandeln. Die meisten Textdaten aber variieren in der Länge von Datum zu Datum, ähnlich wie Audio und Video, was eine zusätzliche Hürde in der Nutzung darstellt.Das Hauptproblem von Text ist also, dass die richtige numerische Darstellung nicht auf der Hand liegt. Der Grund dafür ist, dass es auch nach über sechzig Jahren KI-Forschung noch nicht gelungen ist, eine allgemeingültige Repräsentation von Wissen zu finden, mit der Algorithmen arbeiten können. Aber genau das ist ja Text: ein künstliches Mittel, mit dem Menschen Wissen außerhalb von Köpfen aufbewahren können. Das macht Text zugleich auch unglaublich reizvoll und nützlich für KI-Verfahren: Es gibt viel davon (Internet, Bücher, firmeninterne Dokumentensammlungen …) Er ist oft leicht verfügbar (Scraper, Datenbanken, einfacher File-Import) Wissen ist enorm kompakt repräsentiert (Der String Katze lässt sich in 5 Byte oder weniger packen, ein Katzenbild hat schnell einige Dutzend oder Hunderte Kilobyte) Klassisches NLP vs. Machine Learning Dieses Kapitel legt einen Fokus auf Machine-Learning-Verfahren und damit Verfahren, die generisch auf (fast) beliebigen Inputs arbeiten können, solange si...

Shortcuts
Einstieg ins Machine Learning

2 Text-Preprocessing für ML

Die meisten Verfahren im Bereich des Machine Learnings (ML) arbeiten mit rein numerischem Input. Bei den meisten Arten von Daten, z. B. Tabellen von Messwerten oder Bildern, ist die Umwandlung in die richtige Form offensichtlich. Aber wie können wir Machine Learning mit Buchstaben und Wörtern betreiben? Der Erfolg hängt vom richtigen Preprocessing ab.

Shortcut Autorenteam


Erfolgreiches Machine Learning ist meist zu 75 Prozent von richtigem Preprocessing abhängig. Da die richtige Repräsentation der Daten bei Text nicht eindeutig ist, sondern immer von der Zielsetzung und dem verwendeten Verfahren abhängt, hat das Preprocessing bei der Arbeit mit Text einen noch höheren Stellenwert als ohnehin schon. In diesem Kapitel wollen wir uns der Frage widmen, wie wir dieses wichtige Preprocessing richtig umsetzen, und welche Textdarstellungen es gibt, um den größtmöglichen Erfolg mit unseren ML-Algorithmen zu erzielen.Die meisten ML-Algorithmen, insbesondere bei Deep Learning (Schichten von neuronalen Netzen), benötigen Input in Form von Tensoren. Praktisch kann man bei der Entwicklung Tensoren mit mehrdimensionalen Arrays von Fließkommawerten gleichsetzen. Die Abbildungen 2.1, 2.2 und 2.3 zeigen Beispiele für Tensoren.Bei numerischen tabellarischen Daten oder Bildern liegt die Umwandlung auf der Hand. Schließlich haben die Daten prinzipiell schon die richtige Form. Die meisten ML-Verfahren erwarten aber nicht nur Tensoren, sondern auch, dass sie immer dieselbe Größe haben. Tabellarische Daten sind meist gleichförmig, die Datenpunkte haben dieselbe Anzahl Spalten (= dieselbe Dimension). Bilder lassen sich trivial vergrößern oder verkleinern und so in Matrizen fester Größe umwandeln. Die meisten Textdaten aber variieren in der Länge von Datum zu Datum, ähnlich wie Audio und Video, was eine zusätzliche Hürde in der Nutzung darstellt.Das Hauptproblem von Text ist also, dass die richtige numerische Darstellung nicht auf der Hand liegt. Der Grund dafür ist, dass es auch nach über sechzig Jahren KI-Forschung noch nicht gelungen ist, eine allgemeingültige Repräsentation von Wissen zu finden, mit der Algorithmen arbeiten können. Aber genau das ist ja Text: ein künstliches Mittel, mit dem Menschen Wissen außerhalb von Köpfen aufbewahren können. Das macht Text zugleich auch unglaublich reizvoll und nützlich für KI-Verfahren: Es gibt viel davon (Internet, Bücher, firmeninterne Dokumentensammlungen …) Er ist oft leicht verfügbar (Scraper, Datenbanken, einfacher File-Import) Wissen ist enorm kompakt repräsentiert (Der String Katze lässt sich in 5 Byte oder weniger packen, ein Katzenbild hat schnell einige Dutzend oder Hunderte Kilobyte) Klassisches NLP vs. Machine Learning Dieses Kapitel legt einen Fokus auf Machine-Learning-Verfahren und damit Verfahren, die generisch auf (fast) beliebigen Inputs arbeiten können, solange si...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang