Also, ich fragte mich, ob jemand eine Idee hatte, wie mehrere Begriffe zu einem einzigen Begriff in den Taggern in NLTK. zu kombinieren.Wie fügen Sie dem Tagger in NLTK zusammengesetzte Wörter hinzu?
Zum Beispiel, wenn ich das tue:
nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))
Es gibt mir:
[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]
Wie mache ich es ausdrückte 'von Apple' und 'Incorporated' Gemeinsam ('Apple Incorporated','NNP')
Sie müssten einen Chunker/Parser und dann concat die Chunks/Phrase mit '_', dann flacht die Struktur in Tupel wieder. – alvas