Wie die gleichen Ergebnisse wie http://developer.yahoo.com/search/content/V1/termExtraction.htmlTermextraktion: Generatings Tags aus Text
Diese Frage wurde gebeten, ein paar Mal ganz vor erhalten.
dieses Problem mit bestehenden Lösungen zu nähern Der Versuch ich auf "Textanalyse" gestolpert Solr führt auf dem Dokument vor der Indizierung als beschrieben in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - was auch Stemming beinhaltet.
Der endgültige Index wird also hauptsächlich aus Begriffen bestehen, die das Dokument beschreiben.
Gibt es eine Lösung, die Analysatoren, Tokenizer und Token-Filter für den direkten Gebrauch bereitstellt? Wenn Solr der Ausweg ist, wie erhält man diese Daten am besten aus dem Index von solr?
ja, Solr Begriffe werden nur die einzigartigen Token zurückgeben (vielleicht abzüglich einiger gebräuchlicher Wörter, und stemming etc.). Es wird Ihnen nicht wirklich sagen, was im Text wichtig ist. Für was es wert ist, können Sie die Begriffe aus solr über die http://wiki.apache.org/solr/TermsComponent saugen – mlathe