2010-12-07 6 views
0

Ich möchte ein Dokument auf Elemente wie Buchstaben, Bigramme, Wörter usw. analysieren und vergleichen, wie häufig sie in meinem Dokument sind, wie oft sie sich über einem großen Korpus befanden Unterlagen.Vergleichen von Texthäufigkeiten in einem Dokument mit der Häufigkeit in einem Korpus

Die Idee ist, dass Wörter wie "wenn", "und", "die" in allen Dokumenten üblich sind, aber einige Wörter werden in diesem Dokument viel häufiger vorkommen, als es für den Korpus typisch ist.

Dies muss ziemlich Standard sein. Wie heißt es? Auf die naheliegendste Weise hatte ich immer ein Problem mit neuartigen Wörtern in meinem Dokument, aber nicht in der Korpusbewertung unendlich signifikant. Wie wird damit umgegangen?

+0

können Sie auf erweitern, welche Metriken Ihrer Texte, die Sie tun brauchen? – matcheek

+0

@matcheek: Bei den meisten Dokumenten, die ich finden kann, geht es darum, das Dokument zu finden, das am besten zu einer Suche nach einem oder mehreren Wörtern passt, aber am interessantesten ist es, die "interessantesten" Wörter/Phrasen/Ngramme in einem Dokument zu finden. So etwas wie Amazons "statistisch unwahrscheinliche Phrasen". – hippietrail

Antwort

1

höchstwahrscheinlich haben Sie bereits die tf-idf oder einige andere Messwerte aus okapi_bm25 Familie überprüft.

auch können Sie natural language processing toolkit nltk für einige fertige Lösungen überprüfen

UPDATE: wie für neue Worte sollten Glättung angewendet werden: Good-Turing, Laplace usw.

+0

Ich akzeptiere deine Antwort, weil tf-idf das meiste von dem, was ich gesucht habe, abgedeckt hat, obwohl ich nicht wirklich herausfinden konnte, wie deine Vorschläge zur Glättung angewendet wurden, aber vielleicht fehlte mir die Terminologie, um meine Frage klarer zu formulieren. – hippietrail

1

Es kommt unter die Überschrift der linearen Klassifikatoren, wobei naive Bayes-Klassifikatoren die bekannteste Form sind (aufgrund seiner bemerkenswerten Einfachheit und Robustheit bei Angriffen auf reale Klassifikationsprobleme).

+0

Ich habe viel gelesen auf "Naive Bayesian classifiers" nach dem Lesen Ihrer Antwort und fand die Gegend faszinierend. Aber ich konnte die direkte Verbindung zu meinem Problem nicht sehen, die besser von "tf-idf" gedeckt zu sein schien. – hippietrail

Verwandte Themen