© saicle/Shutterstock.com
Werkzeuge für die Textanalyse

Prüfung in der Wolke


Jahrelang wurde die Informationsgesellschaft angekündigt und in diesem Zusammenhang eine damit einhergehende Informationsüberflutung diskutiert. Im Laufe der Zeit wandelten sich allerdings die Berichte von bedrohlich anmutenden Prognosen hin zu Beschreibungen einer alltäglichen Wirklichkeit. Dieser Artikel gibt einen kurzen Überblick über das weite Feld der automatischen Textanalyse: Warum ist sie wichtig? Warum ist sie schwierig? Welche Werkzeuge können wir einsetzen?

Unbestritten ist, dass die Menge der produzierten Daten exponentiell wächst. Doch nicht nur das Datenvolumen steigt, auch die Zusammensetzung der Daten ändert sich. So sagte das Marktforschungsunternehmen IDC im März 2014, dass bereits dieses Jahr der Anteil von unstrukturierten Daten in Unternehmen den der strukturierten Daten übersteigen wird. Für das Jahr 2017 lautet die Vorhersage, dass sogar etwa 80 Prozent aller Daten unstrukturiert sein werden. Bei einem beträchtlichen Teil der unstrukturierten Daten handelt es sich um Texte.

Texte können mit Technologien aus dem IT-Kanon erst einmal nicht praktikabel ausgewertet werden. Wir können sie zwar in Datenbanken als Blobs speichern und mit verschiedenen Matching-Verfahren nach dort vorkommenden Zeichenketten durchsuchen; dem Inhalt können wir uns mit solchen Methoden jedoch nur schwerlich nähern. Um dieser Daten Herr zu werden, brauchen wir vielmehr spezialisierte Werkzeuge, die die Bedeutung der Texte näher charakterisieren. Das ist die Domäne von semantischer Textanalyse.

Ursprünge und Entwicklungen

Die maschinelle Auswertung von natürlicher Sprache hat in der Forschung eine längere Tradition als viele vermuten. Wichtige Grundlagen des Feldes gehen auf Arbeiten in den 1940er und 1950er Jahren zurück. So bilden die 1956 erstmalig veröffentlichten theoretischen Überlegungen des US-amerikanischen Linguisten Noam Chomsky zur formalen Beschreibung von (natürlichen) Sprachen auch heute noch einen Grundstein der symbolischen Sprachverarbeitung – und der theoretischen Informatik. Demgegenüber versuchen etwa die Arbeiten von Claude Shannon vom Ende der 40er Jahre, Sprache mithilfe von statistischer Modellierung zu beschreiben.

Seitdem hat sich die maschinelle Sprachanalyse in der Wissenschaft kontinuierlich weiterentwickelt. Je nachdem, in welcher wissenschaftlichen Community die jeweiligen Forscher ihren Ursprung hatten, ist die Rede von Computerlinguistik, Natural Language Processing (NLP) oder Sprachtechnologie. Diese Bereiche umfassen eine extreme Bandbreite von Technologien und Anwendungsfeldern, etwa die Transkription gesprochener Sprache (Speech-to-Text), die Informationsextraktion (Text Mining), die Textzusammenfassung oder die maschinelle Übersetzung. In der Forschung gibt es dabei einen klaren Fokus auf der Verarbeitung der englischen Sprache, sodass wesentlich mehr sprachspezifische Ressourcen und Modelle für Englisch als für andere Sprachen verfügbar sind.

Symbolische und statistische Ansätze bilden auch heute noch die beiden Hauptströmungen. In den letzten zwei Jahrzehnten standen dabei vor allem statistische Ansätze im Vordergrund, während symbolische Ansätze eher ein Schattendasein führten. Insbesondere der Einsatz von Verfahren des maschinellen Lernens (ML) zur automatischen Klassifikation von Daten hat eine weite Verbreitung gefunden. Der Reiz dieser Ansätze liegt darin, dass für die Klassifikation keine komplexen Regelsysteme von Hand entwickelt werden müssen, sondern stattdessen echte Daten mit den gewünschten Zielklassen ausgezeichnet werden. Mit diesen von Hand gelabelten Daten können dann etablierte ML-Verfahren verwendet werden, um statistische Modelle abzuleiten (zu trainieren), die die vorgegebenen Daten gut beschreiben und vor allem auf bisher ungesehene Daten generalisieren.

Auch symbolische Ansätze spielen heutzutage wieder eine wichtigere Rolle. Strukturierte Wissensbasen wie etwa DBPedia, Freebase oder Wikidata bilden ein digitales Weltmodell in unserem Begriffssystem. Sie führen wichtige Personen, Organisationen und Orte sowie ihre Beziehungen zueinander auf und bieten damit ein sinnvolles Vokabular- und Referenzsystem, um die Bedeutung von sprachlichen Ausdrücken zu beschreiben. Das Linking-Open-Data-Projekt (LOD) ist ein Sammelpunkt für viele verschiedene, zum Teil sehr spezialisierte Wissensbasen. Das LOD-Diagramm in Abbildung 1 zeigt eindrucksvoll, wie viele Wissensbasen mittlerweile frei verfügbar sind und welche Verknüpfungen zwischen ihnen existieren.

adolphs_textanalyse_1.tif_fmt1.jpgAbb. 1: Linking-Open-Data-Cloud-Diagramm 2014, von Max Schmachtenberg, Christian Bizer, Anja Jentzsch und Richard Cyganiak, http://lod-cloud.net/

Anwendungsgebiete

Ein frühes Beispiel für die kommerzielle Nutzung von Textanalyseverfahren ist Google AdSense. Dieser Dienst platziert textuelle Werbeanzeigen anhand der thematischen Nähe von Anzeige und Webseiteninhalt auf einer Website. Eine wirkliche mediale Aufmerksamkeit erreichte semantische Textanalyse aber erst in d...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang