© Excellent backgrounds/Shutterstock.com
Java Magazin
Kolumne: Die flinke Feder

Relevante Projekte im Kontext, Teil 2

Rückblende: Bevor es Suchmaschinen gab, gab es Such-Directories. Man war gezwungen, sich Schritt für Schritt vom Allgemeinen wie z. B. „Flora und Fauna“, über das Genauere „Säugetiere“ zum Speziellen „Wale“ zu hangeln. Und hoffentlich ist man nicht bei „Fische“ falsch abgebogen. Passiert mir übrigens heute noch manchmal in den SharePoints dieser Welt: Ist das Excel, in dem ich meinen Urlaub eintrage, jetzt unter „Team“ oder unter „Termine“ abgelegt? Gruselig.

Bernd Fondermann


Eine andere Form der Suche war das Blättern in zig Seiten von Tabellen. Scannen aller Einträge, nächste Seite, scannen, nächste Seite. Viel verlorene Zeit. Will man so etwas seinen Nutzern nicht zumuten, setzt man zum Beispiel Apache Solr ein, den Suchserver, der auf Lucene aufbaut. Doch auch die Solr/Lucene-Kombination benutzt eine vergleichsweise naive Herangehensweise, um relevante Ergebnisse zu liefern. Es gewichtet solche Index-Einträge als bessere Treffer, die den Suchbegriff weiter vorne und öfter enthalten. Die großen Suchmaschinen gehen aber weiter. Sie versuchen schon beim Aufbau des Index, der so genannten „Analyse“ des indizierten Textes, semantische Fragen mit zu beantworten: In welcher Sprache ist der Text verfasst? Welche Art von Text ist es? Worum geht es? Welches sind die zentralen Begriffe? In welcher Bedeutung werden doppeldeutige Begriffe verwendet? Und so weiter. Diese Informationen wird man spätestens bei der Suche gut verwenden können. Es macht nämlich für den Nutzer einen Unterschied, ob er einen enzyklopädischen Treffer, ein Blog-Posting, eine Twitter-Nachricht oder eine Zeitungsmeldung findet. Und ob er auch in einer Sprache geschrieben wurde, die er versteht. Gibt der User einen Ortsnamen ein, wird er sich freuen, wenn man ihm eine Karte anzeigt.Um unstrukturierten geschriebenen oder gesprochenen Text in seine grammatikalischen Bestandteile zu zerlegen und ihn zu „erkennen“, ist Apache UIMA [1] eine erste Anlaufstelle. UIMA implementiert die gleichnamige Spezifikation [2] der OASIS, die knackig-kurze 100 Seiten lang ist. Sie beschreibt einen Standard, um unstrukturierte Daten und ihre Metadaten zu analysieren, abzubilden und zwischen Systemen auszutauschen. Apache Stanbol [3] ist ein Projekt, dessen erfolgreicher Inkubator-Abschluss in der nächsten Zeit zu erwarten ist. Es ist vielleicht das ambitionierteste Projekt in diesem Zusammenhang, indem es versucht, von der Textextraktion über die Metadaten-Anreicherung den ganzen Ablauf der semantischen Analyse abzudecken, bis hin zur Verknüpfung des Textinhalts mit bestehendem Wissen, so genannten „Named Entities“ [4] und „Knowledge Databases“. „Wissen“ bedeutet in diesem Zusammenhang, dass die einzelnen Bestandteile des Textes identifiziert werden: Person, Organisationen, Mengenangaben etc. werden als solche gekennzeichnet. Durch die Verknüpfung dieser Informationen untereinander bilden sich die so genannten Ontologien [5]. Diese sind die Basis dafür, durch regelbasierte Systeme vi...

Java Magazin
Kolumne: Die flinke Feder

Relevante Projekte im Kontext, Teil 2

Rückblende: Bevor es Suchmaschinen gab, gab es Such-Directories. Man war gezwungen, sich Schritt für Schritt vom Allgemeinen wie z. B. „Flora und Fauna“, über das Genauere „Säugetiere“ zum Speziellen „Wale“ zu hangeln. Und hoffentlich ist man nicht bei „Fische“ falsch abgebogen. Passiert mir übrigens heute noch manchmal in den SharePoints dieser Welt: Ist das Excel, in dem ich meinen Urlaub eintrage, jetzt unter „Team“ oder unter „Termine“ abgelegt? Gruselig.

Bernd Fondermann


Eine andere Form der Suche war das Blättern in zig Seiten von Tabellen. Scannen aller Einträge, nächste Seite, scannen, nächste Seite. Viel verlorene Zeit. Will man so etwas seinen Nutzern nicht zumuten, setzt man zum Beispiel Apache Solr ein, den Suchserver, der auf Lucene aufbaut. Doch auch die Solr/Lucene-Kombination benutzt eine vergleichsweise naive Herangehensweise, um relevante Ergebnisse zu liefern. Es gewichtet solche Index-Einträge als bessere Treffer, die den Suchbegriff weiter vorne und öfter enthalten. Die großen Suchmaschinen gehen aber weiter. Sie versuchen schon beim Aufbau des Index, der so genannten „Analyse“ des indizierten Textes, semantische Fragen mit zu beantworten: In welcher Sprache ist der Text verfasst? Welche Art von Text ist es? Worum geht es? Welches sind die zentralen Begriffe? In welcher Bedeutung werden doppeldeutige Begriffe verwendet? Und so weiter. Diese Informationen wird man spätestens bei der Suche gut verwenden können. Es macht nämlich für den Nutzer einen Unterschied, ob er einen enzyklopädischen Treffer, ein Blog-Posting, eine Twitter-Nachricht oder eine Zeitungsmeldung findet. Und ob er auch in einer Sprache geschrieben wurde, die er versteht. Gibt der User einen Ortsnamen ein, wird er sich freuen, wenn man ihm eine Karte anzeigt.Um unstrukturierten geschriebenen oder gesprochenen Text in seine grammatikalischen Bestandteile zu zerlegen und ihn zu „erkennen“, ist Apache UIMA [1] eine erste Anlaufstelle. UIMA implementiert die gleichnamige Spezifikation [2] der OASIS, die knackig-kurze 100 Seiten lang ist. Sie beschreibt einen Standard, um unstrukturierte Daten und ihre Metadaten zu analysieren, abzubilden und zwischen Systemen auszutauschen. Apache Stanbol [3] ist ein Projekt, dessen erfolgreicher Inkubator-Abschluss in der nächsten Zeit zu erwarten ist. Es ist vielleicht das ambitionierteste Projekt in diesem Zusammenhang, indem es versucht, von der Textextraktion über die Metadaten-Anreicherung den ganzen Ablauf der semantischen Analyse abzudecken, bis hin zur Verknüpfung des Textinhalts mit bestehendem Wissen, so genannten „Named Entities“ [4] und „Knowledge Databases“. „Wissen“ bedeutet in diesem Zusammenhang, dass die einzelnen Bestandteile des Textes identifiziert werden: Person, Organisationen, Mengenangaben etc. werden als solche gekennzeichnet. Durch die Verknüpfung dieser Informationen untereinander bilden sich die so genannten Ontologien [5]. Diese sind die Basis dafür, durch regelbasierte Systeme vi...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang