© Liashko/Shutterstock.com
Entwickler Magazin
Werkzeuge für die Textanalyse

Prüfung in der Wolke

Jahrelang wurde die Informationsgesellschaft angekündigt und in diesem Zusammenhang eine damit einhergehende Informationsüberflutung diskutiert. Im Laufe der Zeit wandelten sich allerdings die Berichte von bedrohlich anmutenden Prognosen hin zu Beschreibungen einer alltäglichen Wirklichkeit. Dieser Artikel gibt einen kurzen Überblick über das weite Feld der automatischen Textanalyse: Warum ist sie wichtig? Warum ist sie schwierig? Welche Werkzeuge können wir einsetzen?

Peter Adolphs


Unbestritten ist, dass die Menge der produzierten Daten exponentiell wächst. Doch nicht nur das Datenvolumen steigt, auch die Zusammensetzung der Daten ändert sich. So sagte das Marktforschungsunternehmen IDC im März 2014, dass bereits dieses Jahr der Anteil von unstrukturierten Daten in Unternehmen den der strukturierten Daten übersteigen wird. Für das Jahr 2017 lautet die Vorhersage, dass sogar etwa 80 Prozent aller Daten unstrukturiert sein werden. Bei einem beträchtlichen Teil der unstrukturierten Daten handelt es sich um Texte.

Texte können mit Technologien aus dem IT-Kanon erst einmal nicht praktikabel ausgewertet werden. Wir können sie zwar in Datenbanken als Blobs speichern und mit verschiedenen Matching-Verfahren nach dort vorkommenden Zeichenketten durchsuchen; dem Inhalt können wir uns mit solchen Methoden jedoch nur schwerlich nähern. Um dieser Daten Herr zu werden, brauchen wir vielmehr spezialisierte Werkzeuge, die die Bedeutung der Texte näher charakterisieren. Das ist die Domäne von semantischer Textanalyse.

Ursprünge und Entwicklungen

Die maschinelle Auswertung von natürlicher Sprache hat in der Forschung eine längere Tradition als viele vermuten. Wichtige Grundlagen des Feldes gehen auf Arbeiten in den 1940er und 1950er Jahren zurück. So bilden die 1956 erstmalig veröffentlichten theoretischen Überlegungen des US-amerikanischen Linguisten Noam Chomsky zur formalen Beschreibung von (natürlichen) Sprachen auch heute noch einen Grundstein der symbolischen Sprachverarbeitung – und der theoretischen Informatik. Demgegenüber versuchen etwa die Arbeiten von Claude Shannon vom Ende der 40er Jahre, Sprache mithilfe von statistischer Modellierung zu beschreiben.

Seitdem hat sich die maschinelle Sprachanalyse in der Wissenschaft kontinuierlich weiterentwickelt. Je nachdem, in welcher wissenschaftlichen Community die jeweiligen Forscher ihren Ursprung hatten, ist die Rede von Computerlinguistik, Natural Language Processing (NLP) oder Sprachtechnologie. Diese Bereiche umfassen eine extreme Bandbreite von Technologien und Anwendungsfeldern, etwa die Transkription gesprochener Sprache (Speech-to-Text), die Informationsextraktion (Text Mining), die Textzusammenfassung oder die maschinelle Übersetzung. In der Forschung gibt es dabei einen klaren Fokus auf der Verarbeitung der englischen Sprache, sodass wesentlich mehr sprachspezifische Ressourcen und Modelle für Englisch als für andere Sprachen verfügbar sind.

Symbolische und statistische Ansätze bilden auc...

Entwickler Magazin
Werkzeuge für die Textanalyse

Prüfung in der Wolke

Jahrelang wurde die Informationsgesellschaft angekündigt und in diesem Zusammenhang eine damit einhergehende Informationsüberflutung diskutiert. Im Laufe der Zeit wandelten sich allerdings die Berichte von bedrohlich anmutenden Prognosen hin zu Beschreibungen einer alltäglichen Wirklichkeit. Dieser Artikel gibt einen kurzen Überblick über das weite Feld der automatischen Textanalyse: Warum ist sie wichtig? Warum ist sie schwierig? Welche Werkzeuge können wir einsetzen?

Peter Adolphs


Unbestritten ist, dass die Menge der produzierten Daten exponentiell wächst. Doch nicht nur das Datenvolumen steigt, auch die Zusammensetzung der Daten ändert sich. So sagte das Marktforschungsunternehmen IDC im März 2014, dass bereits dieses Jahr der Anteil von unstrukturierten Daten in Unternehmen den der strukturierten Daten übersteigen wird. Für das Jahr 2017 lautet die Vorhersage, dass sogar etwa 80 Prozent aller Daten unstrukturiert sein werden. Bei einem beträchtlichen Teil der unstrukturierten Daten handelt es sich um Texte.

Texte können mit Technologien aus dem IT-Kanon erst einmal nicht praktikabel ausgewertet werden. Wir können sie zwar in Datenbanken als Blobs speichern und mit verschiedenen Matching-Verfahren nach dort vorkommenden Zeichenketten durchsuchen; dem Inhalt können wir uns mit solchen Methoden jedoch nur schwerlich nähern. Um dieser Daten Herr zu werden, brauchen wir vielmehr spezialisierte Werkzeuge, die die Bedeutung der Texte näher charakterisieren. Das ist die Domäne von semantischer Textanalyse.

Ursprünge und Entwicklungen

Die maschinelle Auswertung von natürlicher Sprache hat in der Forschung eine längere Tradition als viele vermuten. Wichtige Grundlagen des Feldes gehen auf Arbeiten in den 1940er und 1950er Jahren zurück. So bilden die 1956 erstmalig veröffentlichten theoretischen Überlegungen des US-amerikanischen Linguisten Noam Chomsky zur formalen Beschreibung von (natürlichen) Sprachen auch heute noch einen Grundstein der symbolischen Sprachverarbeitung – und der theoretischen Informatik. Demgegenüber versuchen etwa die Arbeiten von Claude Shannon vom Ende der 40er Jahre, Sprache mithilfe von statistischer Modellierung zu beschreiben.

Seitdem hat sich die maschinelle Sprachanalyse in der Wissenschaft kontinuierlich weiterentwickelt. Je nachdem, in welcher wissenschaftlichen Community die jeweiligen Forscher ihren Ursprung hatten, ist die Rede von Computerlinguistik, Natural Language Processing (NLP) oder Sprachtechnologie. Diese Bereiche umfassen eine extreme Bandbreite von Technologien und Anwendungsfeldern, etwa die Transkription gesprochener Sprache (Speech-to-Text), die Informationsextraktion (Text Mining), die Textzusammenfassung oder die maschinelle Übersetzung. In der Forschung gibt es dabei einen klaren Fokus auf der Verarbeitung der englischen Sprache, sodass wesentlich mehr sprachspezifische Ressourcen und Modelle für Englisch als für andere Sprachen verfügbar sind.

Symbolische und statistische Ansätze bilden auc...

Neugierig geworden?


   
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang