2016-03-30 4 views
1

Ich habe viele Dokumente (mit einem analysierten Textfeld Titel). Sie wurden in Elasticsearch indiziert und ich brauche jetzt nur noch den Begriff Häufigkeit TF und die IDF des umgekehrten Dokuments für jeden Begriff innerhalb des Feldes Titel, ohne irgendeine Frage zu haben. (Indizierung der Dokumente und Abrufen des invertierten Index aller Begriffe im Feld Titel)Invertierten Index für indizierte Dokumente in Elasticsearch erhalten

Ist das in Elasticsearch möglich?

Antwort

1

Ich schrieb eine tutorial auf, wie man eine Term-Dokument-Matrix von ES erhält. Dies deckt zwar TFs, aber keine IDFs ab. Dies war für ES 1.6.0 mit Python.

Für mehr sollten Sie sich die TermVector API ansehen.

+0

Dank @Animesh Pandey, was ist mit den Token? Ich habe einen Analysator auf das Feld * title * angewendet, kann ich die resultierenden Token für jedes Dokument einfach erhalten? –

+0

Ich bin auch auf der Suche nach diesem. Hast du jetzt Infos? – osager

+0

Oder Sie können einfach verwenden: _termvectors, um die TF zu bekommen – mel

0
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors 
{ 
    "fields" : ["YOUR_FIELD"], 
    "term_statistics" : true, 
    "field_statistics" : true 
} 

Dies wird die TF für jedes Wort in Ihrem Dokument erhalten.

Verwandte Themen