2009-05-06 3 views

Antwort

2

Sie könnten verwenden Solr, die auf Lucene sitzt, und ist eine echte Web-Suchmaschine-Anwendung, während die Lucene ist eine Bibliothek. Jedoch analysieren weder Solr noch Lucene das Word-Dokument, das PDF usw., um Metadateninformationen zu extrahieren. Es ist notwendig, das Dokument basierend auf einem vordefinierten Dokumentenschema zu indizieren.

+0

Tika - noch eine andere Lucene Familie API - adressiert das Extrahieren von Metadaten und Semantik aus Dokumenten verschiedener Formate. – topchef

2

Zum Extrahieren des Textinhalts von Office-Dokumenten (die Sie tun müssen, bevor Sie es Lucene geben), gibt es das Apache Tika-Projekt, das einige file formats unterstützt, einschließlich Microsoft.

1

Mit Tika, der Code den Text aus einer Datei zu erhalten, ist ganz einfach:

import org.apache.tika.exception.TikaException; 
import org.apache.tika.metadata.Metadata; 
import org.apache.tika.parser.AutoDetectParser; 
import org.apache.tika.sax.BodyContentHandler; 
import org.apache.tika.parser.Parser; 

// exception handling not shown 
Parser parser = new AutoDetectParser(); 
StringWriter textBuffer = new StringWriter(); 
InputStream input = new FileInputStream(file); 
Metadata md = new Metadata(); 
md.set(Metadata.RESOURCE_NAME_KEY, file.getName()); 
parser.parse(input, new BodyContentHandler(textBuffer), md); 
String text = textBuffer.toString() 

Bisher Tika 0.3 scheint sehr gut zu funktionieren. Werfen Sie einfach eine beliebige Datei darauf und es gibt Ihnen wieder, was am sinnvollsten für dieses Format ist. Ich kann den Text für die Indizierung von allem bekommen, was ich bisher geworfen habe, einschließlich PDFs und den neuen MS Office-Dateien. Wenn es bei einigen Formaten Probleme gibt, dann glaube ich, dass sie hauptsächlich darin bestehen, formatierte Textextrahierung zu erhalten, anstatt nur reinen Klartext.

1

Just for

Es Aktualisierung ist eine weitere Alternative anstelle von Solr, genannt "ElasticSearch", es ist ein Projekt mit guten Fähigkeiten, ähnlich wie Solr, aber schemaless.

Beide Projekte sind auf Lucene aufgebaut.

+0

Klingt wie ein gutes Werkzeug, um besser zu wissen, was es besser macht, diese Seite ist hilfreicher als die Homepage (das gleiche gilt für die meisten Produkte in diesen Tagen, sie sagen Ihnen nicht, was sie sehr gut machen!): Https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html – NoChance

Verwandte Themen