Ich fand diese vorherige Frage zu SO: N-grams: Explanation + 2 applications. Die OP gab dieses Beispiel und fragte, ob es richtig war:Was genau ist ein n Gramm?
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
Jemand in der Antwort Abschnitt bestätigte dies richtig war, aber leider bin ich ein bisschen darüber hinaus verloren, da ich nicht ganz alles verstand anderes, das war sagte! Ich benutze LingPipe und folge einem Tutorial, das besagt, dass ich einen Wert zwischen 7 und 12 wählen sollte - aber ohne Angabe warum.
Was ist ein guter nGram-Wert und wie sollte ich ihn bei der Verwendung eines Tools wie LingPipe berücksichtigen?
Edit: Das war das Tutorial: http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
So desto kleiner ist die Ngram, desto mehr Vergleiche und desto genauer ist die Analyse? Ich versuche zu verstehen, warum dieses Tutorial eine Zahl zwischen 7 und 12 vorgeschlagen hat. – user2649614
Also, um eine Stimmungsanalyse über Tweets zu machen, wie soll ich eine Nummer wählen? Einfach nur Glück? – user2649614
Ich denke, der einfachste Weg, die beste Zahl herauszufinden, ist zu experimentieren. Zum Beispiel können Sie Ihre Trainingsdaten in zwei Hälften teilen, trainieren Sie in der ersten Hälfte und verwenden Sie dann die Nummer, die Sie am besten mit der zweiten erzielt. Oder versuchen Sie Teeblätter! – zoul