© DrHitch/Shutterstock.com
Shortcuts
Elasticsearch

3 Apache Lucene - die Suchtechnologie von Doug Cutting

Spricht man von Lucene, ist oft die Java-Bibliothek gemeint. Die meisten nutzen aber wohl einen der Suchserver, die auf Lucene basieren: Apache Solr und Elasticsearch. Beide erleichtern das Deployment sowie die Integration von Lucene, indem sie die Suchmaschine als unabhängigen Server zur Verfügung stellen und die Skalierbarkeit durch einen verteilten Ansatz ermöglichen. In den letzten Jahren sind vor allem Features wie Echtzeitsuche (NRT) und Analysefunktionen mit funktionalen Abfragen hinzugekommen.

Shortcut Autorenteam


Jeder Internetnutzer hat die Suchserver schon mal verwendet. Selbst aus dem Desktop- und Mobilebereich ist sie inzwischen nicht mehr wegzudenken: die Suchfunktion, die das Auffinden von Dokumenten oder Textschnipseln in Dokumentensammlungen zum Kinderspiel macht. In kürzester Zeit werden mit einer Desktopsuchmaschine Dokumente zu einem bestimmten Thema hervorgezaubert, die schon lange in den Untiefen des Dateisystems verschollen schienen. Auf Webseiten hilft die Site-eigene Suche, schnell Inhalte zu finden, die über die Navigation vielleicht nur über lange Click-Sessions erreicht worden wären.Oft basiert die Funktionalität hinter den so vertrauten Suchboxen auf der Arbeit des Entwicklerteams von Apache Lucene und den Partnerprojekten Apache Solr und Elasticsearch: Bei GitHub wird der Indexer für die Suche im Quellcode ebenso eingesetzt wie von Twitter, SoundCloud, Zalando, ImmobilienScout24, LinkedIn oder XING. Selbst Wikipedia verwendet Apache Lucene für die Recherche von Artikeln. Entwickler, die JIRA als Issue Tracker einsetzen, verwenden Lucene, sobald sie nach Tickets suchen.Background1999 kündigte Doug Cutting Lucene erstmals bei SourceForge an. Das erste Release 0.01 erblickte am 30.03.2000 das Licht der Welt. Sie war auch das Ergebnis von Cuttings Arbeit mit Volltextmaschinen bei Excite. Die Programmiersprache Java war gerade neu, Suchmaschinen waren grundsätzlich in C oder gar Assembler geschrieben. Cutting probierte in dieser neuen Programmiersprache einige neue Algorithmen aus, die den damaligen Stand der Volltextsuche revolutionierten, unter anderem inkrementelles Indexing (Hinzufügen/Löschen von Dokumenten zu/von einem bestehenden Index) – vorher war nur Batch-Indexing möglich. Und er hatte mit Java nicht auf das falsche Pferd gesetzt: Auch wenn immer noch manche Leute behaupten, Java sei zu langsam, trifft dies auf Lucene nicht zu, wie zahlreiche Benchmarks zeigen.Ein BeispielTypischerweise wird Apache Lucene auf Webseiten mit viel textuellem Inhalt verwendet, den ein User durchsuchen können soll. Das können gescannte PDF-Bibliotheken aus der Zeitschriften-/Artikeldatenbank eines Verlags sein oder die Dokumentation im Firmenarchiv. Aber auch die Suche in kleineren Textsammlungen, wie die in einem Web-Content-Management-System oder dem E-Mail-Ordner in einer Smartphone-App, kann mit Lucene implementiert werden. Durch den feldbasierten Dokumentansatz lassen sich hervorragend auch strukturierte Daten durchsuchen, etwa Produkte in einem Online...

Shortcuts
Elasticsearch

3 Apache Lucene - die Suchtechnologie von Doug Cutting

Spricht man von Lucene, ist oft die Java-Bibliothek gemeint. Die meisten nutzen aber wohl einen der Suchserver, die auf Lucene basieren: Apache Solr und Elasticsearch. Beide erleichtern das Deployment sowie die Integration von Lucene, indem sie die Suchmaschine als unabhängigen Server zur Verfügung stellen und die Skalierbarkeit durch einen verteilten Ansatz ermöglichen. In den letzten Jahren sind vor allem Features wie Echtzeitsuche (NRT) und Analysefunktionen mit funktionalen Abfragen hinzugekommen.

Shortcut Autorenteam


Jeder Internetnutzer hat die Suchserver schon mal verwendet. Selbst aus dem Desktop- und Mobilebereich ist sie inzwischen nicht mehr wegzudenken: die Suchfunktion, die das Auffinden von Dokumenten oder Textschnipseln in Dokumentensammlungen zum Kinderspiel macht. In kürzester Zeit werden mit einer Desktopsuchmaschine Dokumente zu einem bestimmten Thema hervorgezaubert, die schon lange in den Untiefen des Dateisystems verschollen schienen. Auf Webseiten hilft die Site-eigene Suche, schnell Inhalte zu finden, die über die Navigation vielleicht nur über lange Click-Sessions erreicht worden wären.Oft basiert die Funktionalität hinter den so vertrauten Suchboxen auf der Arbeit des Entwicklerteams von Apache Lucene und den Partnerprojekten Apache Solr und Elasticsearch: Bei GitHub wird der Indexer für die Suche im Quellcode ebenso eingesetzt wie von Twitter, SoundCloud, Zalando, ImmobilienScout24, LinkedIn oder XING. Selbst Wikipedia verwendet Apache Lucene für die Recherche von Artikeln. Entwickler, die JIRA als Issue Tracker einsetzen, verwenden Lucene, sobald sie nach Tickets suchen.Background1999 kündigte Doug Cutting Lucene erstmals bei SourceForge an. Das erste Release 0.01 erblickte am 30.03.2000 das Licht der Welt. Sie war auch das Ergebnis von Cuttings Arbeit mit Volltextmaschinen bei Excite. Die Programmiersprache Java war gerade neu, Suchmaschinen waren grundsätzlich in C oder gar Assembler geschrieben. Cutting probierte in dieser neuen Programmiersprache einige neue Algorithmen aus, die den damaligen Stand der Volltextsuche revolutionierten, unter anderem inkrementelles Indexing (Hinzufügen/Löschen von Dokumenten zu/von einem bestehenden Index) – vorher war nur Batch-Indexing möglich. Und er hatte mit Java nicht auf das falsche Pferd gesetzt: Auch wenn immer noch manche Leute behaupten, Java sei zu langsam, trifft dies auf Lucene nicht zu, wie zahlreiche Benchmarks zeigen.Ein BeispielTypischerweise wird Apache Lucene auf Webseiten mit viel textuellem Inhalt verwendet, den ein User durchsuchen können soll. Das können gescannte PDF-Bibliotheken aus der Zeitschriften-/Artikeldatenbank eines Verlags sein oder die Dokumentation im Firmenarchiv. Aber auch die Suche in kleineren Textsammlungen, wie die in einem Web-Content-Management-System oder dem E-Mail-Ordner in einer Smartphone-App, kann mit Lucene implementiert werden. Durch den feldbasierten Dokumentansatz lassen sich hervorragend auch strukturierte Daten durchsuchen, etwa Produkte in einem Online...

Neugierig geworden?


    
Loading...

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang