Was ist der beste Ansatz, um die Suche nach Dokumenten (PDF, XML, HTML, MS Word) zu implementieren?

Was könnte eine gute Möglichkeit sein, eine Suchfunktion für die Suche nach Dokumenten in einer Java-Webanwendung zu programmieren?Was ist der beste Ansatz, um die Suche nach Dokumenten (PDF, XML, HTML, MS Word) zu implementieren?

Ist 'getaggte Suche' eine gute Lösung für solche Suchfunktionen?

Quelle

2009-05-06 user32262

Obwohl ich hier nicht aufgeführt bin, begann ich heute, ein vielversprechendes Produkt zu betrachten https://www.clusterpoint.com/ – NoChance

Warum das Rad neu erfinden?

Auschecken Apache Lucene.

Suchen Sie auch Stack Overflow für "Volltextsuche" und Sie werden viele andere sehr ähnliche Fragen finden. Hier ist eine andere, zum Beispiel: How do I implement Search Functionality in a website?

Quelle

2009-05-06 21:09:21 womp

Sie könnten verwenden Solr, die auf Lucene sitzt, und ist eine echte Web-Suchmaschine-Anwendung, während die Lucene ist eine Bibliothek. Jedoch analysieren weder Solr noch Lucene das Word-Dokument, das PDF usw., um Metadateninformationen zu extrahieren. Es ist notwendig, das Dokument basierend auf einem vordefinierten Dokumentenschema zu indizieren.

Quelle

2009-05-07 00:48:58 user101979

Tika - noch eine andere Lucene Familie API - adressiert das Extrahieren von Metadaten und Semantik aus Dokumenten verschiedener Formate. – topchef

Zum Extrahieren des Textinhalts von Office-Dokumenten (die Sie tun müssen, bevor Sie es Lucene geben), gibt es das Apache Tika-Projekt, das einige file formats unterstützt, einschließlich Microsoft.

Quelle

2009-05-07 09:32:59 Thilo

Mit Tika, der Code den Text aus einer Datei zu erhalten, ist ganz einfach:

import org.apache.tika.exception.TikaException; 
import org.apache.tika.metadata.Metadata; 
import org.apache.tika.parser.AutoDetectParser; 
import org.apache.tika.sax.BodyContentHandler; 
import org.apache.tika.parser.Parser; 

// exception handling not shown 
Parser parser = new AutoDetectParser(); 
StringWriter textBuffer = new StringWriter(); 
InputStream input = new FileInputStream(file); 
Metadata md = new Metadata(); 
md.set(Metadata.RESOURCE_NAME_KEY, file.getName()); 
parser.parse(input, new BodyContentHandler(textBuffer), md); 
String text = textBuffer.toString()

Bisher Tika 0.3 scheint sehr gut zu funktionieren. Werfen Sie einfach eine beliebige Datei darauf und es gibt Ihnen wieder, was am sinnvollsten für dieses Format ist. Ich kann den Text für die Indizierung von allem bekommen, was ich bisher geworfen habe, einschließlich PDFs und den neuen MS Office-Dateien. Wenn es bei einigen Formaten Probleme gibt, dann glaube ich, dass sie hauptsächlich darin bestehen, formatierte Textextrahierung zu erhalten, anstatt nur reinen Klartext.

Quelle

2009-05-23 12:06:49 Jegschemesch

Just for

Es Aktualisierung ist eine weitere Alternative anstelle von Solr, genannt "ElasticSearch", es ist ein Projekt mit guten Fähigkeiten, ähnlich wie Solr, aber schemaless.

Beide Projekte sind auf Lucene aufgebaut.

Quelle

2013-04-26 12:37:41 Alvaro

Klingt wie ein gutes Werkzeug, um besser zu wissen, was es besser macht, diese Seite ist hilfreicher als die Homepage (das gleiche gilt für die meisten Produkte in diesen Tagen, sie sagen Ihnen nicht, was sie sehr gut machen!): Https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html – NoChance

Was ist der beste Ansatz, um die Suche nach Dokumenten (PDF, XML, HTML, MS Word) zu implementieren?

Antwort

Verwandte Themen