2012-03-26 6 views
2

Ich habe ein System geschrieben, das ein langes Dokument mit Tausenden von Wörtern zusammenfasst. Gibt es Normen darüber, wie ein solches System im Rahmen einer Nutzerbefragung evaluiert werden sollte?Wie kann ich ein Textzusammenfassungstool auswerten?

Kurz gesagt, gibt es eine Metrik für die Bewertung der Zeit, die mein Werkzeug einen Menschen gerettet hat? Momentan dachte ich darüber nach, die Zeit (zum Lesen des Originaldokuments/Zeit zum Lesen der Zusammenfassung) zu verwenden, um die eingesparte Zeit zu bestimmen, aber gibt es bessere Metriken?

Derzeit frage ich den Benutzer subjektive Fragen über die Richtigkeit der Zusammenfassung.

Antwort

4

Ich bin mir nicht sicher über die Zeitauswertung, aber bezüglich der Genauigkeit können Sie Literatur unter dem Thema Automatic Document Summarization konsultieren. Die erste Evaluierung war die Document Understanding Conference (DUC), bis die Zusammenfassungsaufgabe 2008 in die Text Analysis Conference (TAC) verschoben wurde. Die meisten dieser Themen konzentrieren sich auf erweiterte Zusammenfassungsthemen wie Multi-Dokument-, mehrsprachige und Update-Zusammenfassungen.

Sie können die Bewertungsrichtlinien für jede dieser Veranstaltungen online veröffentlicht finden. Für die Zusammenfassung von Einzeldokumenten siehe DUC 2002-2004.

Oder Sie können die ADS evaluation section in Wikipedia konsultieren.

+1

Vielen Dank für Ihre Sharing. Sie haben erwähnt, dass die Zusammenfassungsaufgabe 2008 in die Text Retrieval Conference (TREC) verlegt wurde. Der von Ihnen angegebene Link verweist jedoch auf TAC (Text Analysis Conference). Unter http://trec.nist.gov/data.html konnte ich keine Zusammenfassungsaufgaben finden (außer einer temporären Zusammenfassungsaufgabe). –

+0

Danke, ich habe es behoben. –

0

Es gibt viele Parameter, mit denen Sie Ihr Zusammenfassungssystem auswerten können. wie Precision = Anzahl der wichtigen Sätze/Gesamtzahl der Sätze zusammengefasst. Recall = Gesamtzahl der wichtigen Sätze, die abgerufen wurden/Gesamtzahl der wichtigen vorhandenen Sätze.

F Ergebnis = 2 * (Präzision * Recall/Precision + Recall) Komprimierte Rate = Gesamtzahl der Wörter in der Zusammenfassung/Gesamtzahl der Wörter im Originaldokument.

+0

Wie findet das Programm die Anzahl der wichtigen Sätze usw.? –

3

Historisch wurden Zusammenfassungssysteme oft durch den Vergleich mit vom Menschen erzeugten Referenzzusammenfassungen bewertet. In einigen Fällen erstellt der menschliche Zusammenfasser eine Zusammenfassung, indem er relevante Sätze aus dem Originaldokument auswählt; in anderen werden die Zusammenfassungen von Hand neu geschrieben.

Diese beiden Techniken sind analog zu den beiden Hauptkategorien automatischer Zusammenfassungssysteme - extraktiv vs. abstrahierend (mehr Details unter Wikipedia).

Ein Standard-Tool ist Rouge, ein Skript (oder eine Reihe von Skripts; ich kann mich nicht erinnern, nicht Hand), die N-Gramm-Überlappung zwischen der automatischen Zusammenfassung und einer Referenzzusammenfassung berechnet. Grob kann optional eine Überlappung berechnen, die Worteinfügungen oder -löschungen zwischen den zwei Zusammenfassungen erlaubt (z. B. wenn ein 2-Wort-Überspringen zugelassen wird, würden "installierte Pumpen" als eine Übereinstimmung zu "installierten defekten Hochwasserschutzpumpen" gutgeschrieben).

Ich verstehe, dass Rouges N-Gram-Überlappungswerte ziemlich gut mit der menschlichen Auswertung von Zusammenfassungen bis zu einem gewissen Grad an Genauigkeit korreliert waren, aber dass die Beziehung zusammenbrechen könnte, wenn sich die Zusammenfassungsqualität verbessert. Das heißt, dass jenseits einer Qualitätsschwelle Zusammenfassungen, die von menschlichen Bewertern besser beurteilt werden, ähnlich wie - oder übertroffen von - Zusammenfassungen bewertet werden können, die als minderwertig beurteilt werden. Rouge-Scores könnten jedoch ein hilfreicher erster Schritt sein, um 2 Kandidaten-Zusammenfassungssysteme zu vergleichen, oder eine Möglichkeit, Regressionstests zu automatisieren und schwerwiegende Regressionen auszusondern, bevor ein System an menschliche Evaluatoren weitergegeben wird.

Ihr Ansatz, menschliche Urteile zu sammeln, ist wahrscheinlich die beste Bewertung, wenn Sie sich die Zeit-/Geldkosten leisten können.Um diesem Prozess etwas Strenge hinzuzufügen, können Sie sich die Scoring-Kriterien ansehen, die in den letzten Zusammenfassungsaufgaben verwendet wurden (siehe die verschiedenen von @John Lehmann erwähnten Konferenzen). Die von diesen Gutachtern verwendeten Bewertungsbögen können Ihnen bei der Durchführung Ihrer eigenen Bewertung helfen.

0

Wenn Sie ein automatisches Zusammenfassungssystem auswerten, betrachten Sie normalerweise den Inhalt der Zusammenfassung und nicht die Zeit.

Ihre Idee:

(Zeit, um das Originaldokument/Zeit genommen lesen Sie die Zusammenfassung lesen)

Hat Sie viel über Ihre summarisation System nicht sagen, es ist wirklich nur gibt Ihnen eine Vorstellung von der Komprimierungsrate Ihres Systems (dh die Zusammenfassung beträgt 10% des Originaldokuments).

Sie möchten vielleicht die Zeit betrachten, die Ihr System benötigt, um ein Dokument im Vergleich zur Zeit, die ein Mensch benötigt, zusammenzufassen (System: 2s, Mensch: 10 Minuten).

0

Allgemein gilt:

Bleu Maßnahmen Präzision: wie viel die Worte (und/oder n-Gramm) in der Maschine erzeugten Zusammenfassungen in den menschlichen Referenz Zusammenfassungen erschienen.

Rouge Maßnahmen Rückruf: wie viel die Wörter (und/oder N-Gramm) in den menschlichen Referenzzusammenfassungen in den maschinengenerierten Zusammenfassungen erschienen.

Natürlich - diese Ergebnisse ergänzen sich, wie es oft bei Präzision vs Rückruf der Fall ist. Wenn Sie viele Wörter/Ngramme von den Systemergebnissen haben, die in den menschlichen Referenzen erscheinen, haben Sie hohe Bleu, und wenn Sie viele Wörter/Ngrams von den menschlichen Bezügen haben, die in den Systemergebnissen erscheinen, werden Sie hohes Rouge haben.

Es gibt etwas namens Kürze Penalty, die ziemlich wichtig ist und bereits Standard-Bleu-Implementierungen hinzugefügt wurde. Es bestraft Systemergebnisse, die kürzer sind als die allgemeine Länge einer Referenz (lesen Sie mehr darüber here). Dies ergänzt das n-grammetrische Verhalten, das in der Tat länger bestraft wird als Referenzresultate, da der Nenner wächst, je länger das Systemergebnis ist.

Sie könnten auch etwas Ähnliches für Rouge implementieren, aber dieses Mal bestrafen Sie Systemergebnisse, die länger sind als die allgemeine Referenzlänge, die es sonst ermöglichen würden, künstlich höhere Rouge-Werte zu erhalten (je länger das Ergebnis, desto höher die Chance) Sie würden ein Wort treffen, das in den Referenzen erscheint). In Rouge teilen wir durch die Länge der menschlichen Referenzen, so dass wir eine zusätzliche Strafe für längere Systemergebnisse benötigen, die ihren Rouge-Score künstlich erhöhen könnten.

Schließlich konnte man die F1 Maßnahme verwenden, um die Metriken zu machen arbeiten zusammen: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

+0

Sie haben die genaue Antwort auf zwei Fragen geschrieben.Wenn Sie denken, dass einer von ihnen ein Duplikat des anderen ist, sollten Sie sie als solche markieren (und nicht dieselbe Antwort zweimal posten). – Jaap

+0

Die Antworten sind nicht genau die gleichen, und die Fragen sind nicht genau die gleichen .. Es ist richtig, dass eine der Antworten die andere enthält, aber ich kann keinen klaren Weg sehen, die beiden Fragen zu konvergieren. –

Verwandte Themen