2017-09-07 5 views
1

Ich versuche zu entschlüsseln, was die Passage_score und Ergebnis []. Score (in Prozent) in den Ergebnissen der Entdeckung bedeuten. Dies ist so, dass wir Passagen und Ergebnisse herausfiltern können, die eine minimale Vertrauensschwelle nicht erfüllen.Watson Discovery Discovery Passage Score und Ergebnis Punktzahl

Zum Beispiel in dieser Ergebnismenge:

{ 
... 
"passages": [ 
    { 
     "document_id": "AA", 
     "passage_score": 14.303232050575723, 
     ... 
    }, 
    { 
     "document_id": "BB", 
     "passage_score": 14.089714658115533, 
     ... 
    } 
], 
"results": [ 
    { 
     "id": "AA", 
     "score": 1.5188946, 
     ... 
    }, 
    { 
     "id": "BB", 
     "score": 1.5188946, 
     ... 
    } 
] 

}

wie würde ich die Noten in eine Perzentil äquivalent zum Vergleich konvertieren? In RnR benutzte ich das ranker.confidence-Feld.

Antwort

0

Nach offiziellen Dokumentation über Watson Entdeckung sind die Passagen durch ausgefeilte Watson Algorithmen erzeugt die besten Textpassagen von alle der Dokumente durch die query zurück zu bestimmen.

Ich denke, vielleicht können Sie das verwenden highlight Parameter, highlight: Ein boolescher Wert, der zurückgegebene Ausgabe gibt an, ob ein Objekt Highlight umfasst, in denen die Schlüssel Feldnamen und die Werte sind Arrays, die Segmente von query- enthalten übereinstimmender Text, der durch den HTML-Code * markiert ist.

Oder der top_hits Parameter: Gibt die Dokumente nach der Punktzahl der Abfrage oder Anreicherung. Kann mit jedem Abfrageparameter oder jeder Aggregation verwendet werden. In diesem Beispiel werden die 10 häufigsten Treffer für eine Begriffsaggregation zurückgegeben.

  • Überprüfen Sie die Liste im Abfrage-Gebäude reference über Abfragen mit Discovery.
  • Überprüfen Sie diese: article 1, article 2 mit Watson Discovery mit mehr Beispielen.
  • Playlist von IBM mit Watson Discovery.
  • +0

    Danke sayuri-mizuguchi. Aber wissen Sie, welche Skalierung die Felder "score" und "passage_score" verwenden? –

    +0

    der 'passages_score' ist die Interpunktion über den Textteil in' passage_text', da der Passage-Score spezifisch für die Abfrage ist und kein normalisierter Score ist, der zum Vergleich mit anderen verwendet werden soll. Und die "Punktzahl" ist die Interpunktion über die Dokument-ID für Ihre Abfrage. Siehe meine Bearbeitung mit mehr Links zu mehr Wissen. –

    1

    Die Passagen Punktzahl und der Dokument-Score ist kein Konfidenz-Score, noch ist es eine normalisierte Punktzahl. Es ist eine Punktzahl, die basierend auf der Abfrage berechnet wird und wie "gut" die Dokumente mit der vom Benutzer gesendeten Abfrage verknüpft sind.

    Es wäre nicht korrekt, Scores zwischen mehreren verschiedenen Abfragen zu vergleichen, und eine Normalisierung ist zwar nicht möglich, ist aber für die von uns erzeugte Punktzahl nicht geeignet. Sie könnten versuchen, die Ergebnisse zu normalisieren, aber jeder Normalisierungsfaktor, den Sie erhalten, wird verworfen, wenn Sie Dokumente aus Ihrem Index hinzufügen oder löschen.

    Die Punkteberechnung hängt vollständig von den Dokumenten und der Relevanz dieser Dokumente für die spezifische Abfrage ab. Mit anderen Worten, seine Berechnung basiert auf Termhäufigkeiten (wie oft das Wort erscheint) in den Dokumenten sowie einigen anderen ausgefeilten Algorithmusanpassungen, die an der Punktzahl vorgenommen wurden. Es handelt sich um einen Score, der für die Abfrage spezifisch ist und mit einem Algorithmus berechnet wird, der versucht, die "Wahrscheinlichkeit" dafür vorherzusagen, dass das Dokument für die Abfrage am relevantesten ist. Es ist keine normalisierte Punktzahl.

    Ich würde stattdessen empfehlen, Top-N-Dokumente als einen vernünftigeren Schwellenwert zu verwenden, wobei n die maximale Anzahl der Dokumente ist, die Sie an den Benutzer zurückgeben. Passages verwendet zusätzliche Algorithmen, die ebenfalls darauf ausgerichtet sind, die besten Passagen für diese bestimmte Abfrage zu generieren. Die Punktzahl wird wiederum für die Abfrage berechnet.

    Es gibt Pläne, in Zukunft die Bewertungen für neu gereihte Dokumente zu verbessern.

    Verwandte Themen