Ich möchte ein Dokument auf Elemente wie Buchstaben, Bigramme, Wörter usw. analysieren und vergleichen, wie häufig sie in meinem Dokument sind, wie oft sie sich über einem großen Korpus befanden Unterlagen.Vergleichen von Texthäufigkeiten in einem Dokument mit der Häufigkeit in einem Korpus
Die Idee ist, dass Wörter wie "wenn", "und", "die" in allen Dokumenten üblich sind, aber einige Wörter werden in diesem Dokument viel häufiger vorkommen, als es für den Korpus typisch ist.
Dies muss ziemlich Standard sein. Wie heißt es? Auf die naheliegendste Weise hatte ich immer ein Problem mit neuartigen Wörtern in meinem Dokument, aber nicht in der Korpusbewertung unendlich signifikant. Wie wird damit umgegangen?
können Sie auf erweitern, welche Metriken Ihrer Texte, die Sie tun brauchen? – matcheek
@matcheek: Bei den meisten Dokumenten, die ich finden kann, geht es darum, das Dokument zu finden, das am besten zu einer Suche nach einem oder mehreren Wörtern passt, aber am interessantesten ist es, die "interessantesten" Wörter/Phrasen/Ngramme in einem Dokument zu finden. So etwas wie Amazons "statistisch unwahrscheinliche Phrasen". – hippietrail