Vergleichen von Texthäufigkeiten in einem Dokument mit der Häufigkeit in einem Korpus

Ich möchte ein Dokument auf Elemente wie Buchstaben, Bigramme, Wörter usw. analysieren und vergleichen, wie häufig sie in meinem Dokument sind, wie oft sie sich über einem großen Korpus befanden Unterlagen.Vergleichen von Texthäufigkeiten in einem Dokument mit der Häufigkeit in einem Korpus

Die Idee ist, dass Wörter wie "wenn", "und", "die" in allen Dokumenten üblich sind, aber einige Wörter werden in diesem Dokument viel häufiger vorkommen, als es für den Korpus typisch ist.

Dies muss ziemlich Standard sein. Wie heißt es? Auf die naheliegendste Weise hatte ich immer ein Problem mit neuartigen Wörtern in meinem Dokument, aber nicht in der Korpusbewertung unendlich signifikant. Wie wird damit umgegangen?

Quelle

2010-12-07 hippietrail

können Sie auf erweitern, welche Metriken Ihrer Texte, die Sie tun brauchen? – matcheek

@matcheek: Bei den meisten Dokumenten, die ich finden kann, geht es darum, das Dokument zu finden, das am besten zu einer Suche nach einem oder mehreren Wörtern passt, aber am interessantesten ist es, die "interessantesten" Wörter/Phrasen/Ngramme in einem Dokument zu finden. So etwas wie Amazons "statistisch unwahrscheinliche Phrasen". – hippietrail

höchstwahrscheinlich haben Sie bereits die tf-idf oder einige andere Messwerte aus okapi_bm25 Familie überprüft.

auch können Sie natural language processing toolkit nltk für einige fertige Lösungen überprüfen

UPDATE: wie für neue Worte sollten Glättung angewendet werden: Good-Turing, Laplace usw.

Quelle

2010-12-07 02:02:05 matcheek

Ich akzeptiere deine Antwort, weil tf-idf das meiste von dem, was ich gesucht habe, abgedeckt hat, obwohl ich nicht wirklich herausfinden konnte, wie deine Vorschläge zur Glättung angewendet wurden, aber vielleicht fehlte mir die Terminologie, um meine Frage klarer zu formulieren. – hippietrail

Es kommt unter die Überschrift der linearen Klassifikatoren, wobei naive Bayes-Klassifikatoren die bekannteste Form sind (aufgrund seiner bemerkenswerten Einfachheit und Robustheit bei Angriffen auf reale Klassifikationsprobleme).

Quelle

2010-12-07 01:55:23

Ich habe viel gelesen auf "Naive Bayesian classifiers" nach dem Lesen Ihrer Antwort und fand die Gegend faszinierend. Aber ich konnte die direkte Verbindung zu meinem Problem nicht sehen, die besser von "tf-idf" gedeckt zu sein schien. – hippietrail

Vergleichen von Texthäufigkeiten in einem Dokument mit der Häufigkeit in einem Korpus

Antwort

Verwandte Themen