© Excellent backgrounds/Shutterstock.com
Ein Kurzporträt der Suchtechnologie von Doug Cutting

Apache Lucene


Spricht man von Lucene, ist oft die Java-Bibliothek gemeint. Die meisten nutzen aber wohl einen der Suchserver, die auf Lucene basieren: Apache Solr und Elasticsearch. Beide erleichtern das Deployment sowie die Integration von Lucene, indem sie die Suchmaschine als unabhängigen Server zur Verfügung stellen und die Skalierbarkeit durch einen verteilten Ansatz ermöglichen.

Video: Better Text Classification with Apache Mahout and Lucene

Jeder Internetnutzer hat sie schon mal verwendet. Selbst aus dem Desktop- und Mobilebereich ist sie inzwischen nicht mehr wegzudenken: die Suchfunktion, die das Auffinden von Dokumenten oder Textschnipseln in Dokumentensammlungen zum Kinderspiel macht. In kürzester Zeit werden mit einer Desktopsuchmaschine Dokumente zu einem bestimmten Thema hervorgezaubert, die schon lange in den Untiefen des Dateisystems verschollen schienen. Auf Webseiten hilft die Site-eigene Suche, schnell Inhalte zu finden, die über die Navigation vielleicht nur über lange Click-Sessions erreicht worden wären.

Oft basiert die Funktionalität hinter den so vertrauten Suchboxen auf der Arbeit des Entwicklerteams von Apache Lucene und den Partnerprojekten Apache Solr und Elasticsearch: Bei GitHub wird der Indexer für die Suche im Quellcode ebenso eingesetzt wie von Twitter, SoundCloud, Zalando, ImmobilienScout24, LinkedIn oder XING. Selbst Wikipedia verwendet Apache Lucene für die Recherche von Artikeln. Entwickler, die JIRA als Issue Tracker einsetzen, verwenden Lucene, sobald sie nach Tickets suchen.

Spricht man von Lucene, ist oft die Java-Bibliothek gemeint. Die meisten nutzen aber wohl einen der Suchserver, die auf Lucene basieren: Apache Solr und Elasticsearch. Beide erleichtern das Deployment sowie die Integration von Lucene, indem sie die Suchmaschine als unabhängigen Server zur Verfügung stellen und die Skalierbarkeit durch einen verteilten Ansatz ermöglichen. In den letzten Jahren sind vor allem Features wie Echtzeitsuche (NRT) und Analysefunktionen mit funktionalen Abfragen hinzugekommen.

Background

1999 kündigte Doug Cutting Lucene erstmals bei SourceForge an. Das erste Release 0.01 erblickte am 30.03.2000 das Licht der Welt. Sie war auch das Ergebnis von Cuttings Arbeit mit Volltextmaschinen bei Excite. Die Programmiersprache Java war gerade neu, Suchmaschinen waren grundsätzlich in C oder gar Assembler geschrieben. Cutting probierte in dieser neuen Programmiersprache einige neue Algorithmen aus, die den damaligen Stand der Volltextsuche re...

Exklusives Abo-Special

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang