2017-01-09 3 views
0

Ich versuche, zwei MLT abfragt Partituren abzufragen und zu vergleichen, aber ich bin verwirrt ein wenig auf das, was ich hier gelesen https://www.elastic.co/guide/en/elasticsearch/guide/current/practical-scoring-function.htmlVergleichen Elasticsearch Abfrage Punktzahl über mehrere Abfragen

Auch wenn die Absicht der Abfrage Norm um Ergebnisse von verschiedenen Abfragen vergleichbar zu machen, funktioniert es nicht sehr gut. Der einzige Zweck der Relevanz _score ist, die Ergebnisse der aktuellen Abfrage in der richtigen Reihenfolge zu sortieren. Sie sollten nicht versuchen, die Relevanz Punktzahl von verschiedenen Abfragen zu vergleichen.

wenn ich eine MLT-Abfrage und Dokument lief ‚A‘ ist ähnlich ‚B‘ zu dokumentieren und die Punktzahl ist 0,4 und umgekehrt die MLT-Abfragedokument ‚B‘ läuft ähnlich ‚A‘ zu dokumentieren und ihre Ergebnis ist 2,4.

Ich würde erwarten, dass die Punktzahl die gleiche ist, basierend auf den Token in der MLT übereinstimmen, aber das ist nicht der Fall.

Auch wenn ich eine MLT-Abfrage und Dokument lief ‚A‘ ist ähnlich ‚B‘ zu dokumentieren und die Punktzahl ist 0,6 und andere MLT Abfragedokument ‚C‘ ausgeführt ist ähnlich ‚A‘ und seine Punktzahl zu dokumentieren ist 4.7.

Also meine Fragen sind:

  1. dies, dass C ist viel ähnlicher A als B bedeutet das?
  2. Auch, was ist der beste Weg für mich vergleichen mehrere Abfragen in elasticsearch, wenn die Ergebnisse unterschiedlich sind?

Danke, - Phil

Antwort

1

1.

Nein, tut es nicht. Wie Sie in Ihrer Frage notiert haben, sollten Sie die Bewertungen verschiedener Abfragen nicht vergleichen. Wenn Sie ein aussagekräftiges Ergebnis davon erhalten möchten, welche Dokumente C am ähnlichsten sind, sollten Sie eine MLT-Abfrage für Dokument C generieren und danach suchen.

Dies ist aufgrund der Funktionsweise von MLT-Abfragen doppelt wahr. MLT versucht, eine Liste interessanter Begriffe zu generieren, nach denen Sie in Ihrem Dokument suchen können (basierend auf der Bibliothek von Begriffen im Index), und sucht nach ihnen. Die Menge der aus Dokument A erzeugten Begriffe kann sich stark von der aus Dokument B erzeugten unterscheiden, also die stark abweichenden Bewertungen beim Auffinden von A aus B und umgekehrt, obwohl die Dokumente selbst offensichtlich die gleiche Überlappung aufweisen.

2.

Nicht. Höre auf die Dokumente. Scores sind nur entworfen, um zu bewerten, wie gut Dokumente mit der Abfrage übereinstimmen, die sie generiert. Sie außerhalb dieses Kontextes zu verwenden, ist nicht sinnvoll. Überdenken Sie, was Sie erreichen möchten.

Verwandte Themen