Ich habe dieses Beispiel und ich möchte wissen, wie Sie dieses Ergebnis erhalten. Ich habe Text und ich tokenize es dann sammle ich das Bigramm und trigram und fourgram wie dasPython NLTK: Bigramme Trigramme vier Gramm
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
text = "Hi How are you? i am fine and you"
token=nltk.word_tokenize(text)
bigrams=ngrams(token,2)
Bigrams: [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?'), ('?', 'i'), ('i', 'am'), ('am', 'fine'), ('fine', 'and'), ('and', 'you')]
trigrams=ngrams(token,3)
trigrams: [('Hi', 'How', 'are'), ('How', 'are', 'you'), ('are', 'you', '?'), ('you', '?', 'i'), ('?', 'i', 'am'), ('i', 'am', 'fine'), ('am', 'fine', 'and'), ('fine', 'and', 'you')]
bigram [(a,b) (b,c) (c,d)]
trigram [(a,b,c) (b,c,d) (c,d,f)]
i want the new trigram should be [(c,d,f)]
which mean
newtrigram = [('are', 'you', '?'),('?', 'i','am'),...etc
jede Idee wird hilfreich sein,
Ich verstehe nicht; es scheint, als hättest du die ngrams schon generiert? – Emre
@Emre meine Frage, wie man das newtrigram ich versuche, eine Funktion zu finden, die innerhalb des Elementes von Bigram suchen und es mit dem Element von Trigram vergleichen kann und nehmen nur die verschiedenen –