2009-07-08 4 views
5

Wie die gleichen Ergebnisse wie http://developer.yahoo.com/search/content/V1/termExtraction.htmlTermextraktion: Generatings Tags aus Text

Diese Frage wurde gebeten, ein paar Mal ganz vor erhalten.

dieses Problem mit bestehenden Lösungen zu nähern Der Versuch ich auf "Textanalyse" gestolpert Solr führt auf dem Dokument vor der Indizierung als beschrieben in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - was auch Stemming beinhaltet.

Der endgültige Index wird also hauptsächlich aus Begriffen bestehen, die das Dokument beschreiben.

Gibt es eine Lösung, die Analysatoren, Tokenizer und Token-Filter für den direkten Gebrauch bereitstellt? Wenn Solr der Ausweg ist, wie erhält man diese Daten am besten aus dem Index von solr?

Antwort

4

Solr ist eine Möglichkeit, eine benutzerdefinierte Suchmaschine zu erstellen. Es scheint nicht das richtige Werkzeug für den Job zu sein. Die Wikipedia article about term extraction listet im Abschnitt "externe Links" mehrere Web-Anwendungen zur Termextraktion auf. OpenNLP hat eine Liste von Tools, die nützlich sein können. Its Chunker kann hilfreich sein.

+0

ja, Solr Begriffe werden nur die einzigartigen Token zurückgeben (vielleicht abzüglich einiger gebräuchlicher Wörter, und stemming etc.). Es wird Ihnen nicht wirklich sagen, was im Text wichtig ist. Für was es wert ist, können Sie die Begriffe aus solr über die http://wiki.apache.org/solr/TermsComponent saugen – mlathe

0

Fragen Sie einfach nach den analysierten Begriffen, z.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

Siehe TermsComponent für weitere Informationen.