Ich mache eine Textanalyse-Aufgabe mit Python. Hier habe ich NLTK für die Textverarbeitungsaufgabe verwendet. Bei mir gibt es einen vordefinierten Satz von biwords, der unten erwähnt wird.Wie man einen Satz mit bekannten biwords mit nltk tokenize?
arr = ['Animo Text Analytics Inc.', 'Amila Iddamalgoda']
Und auch ich habe einen Satz wie unten.
sentence = "Amila Iddamalgoda is currently working for Animo Text Analytics Inc. and currently following the Text Mining and Analytics course provided by coursera."
Jetzt habe ich dies mit NLTK in Tokens.
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(sentence)
Dies gibt (offensichtlich) einzelne Wort Token. Was ich jedoch brauche, ist die Übereinstimmung mit dem vordefinierten Satz von Biwörtern, die ich (am Anfang erwähnt) habe, und nehme diese Biword-Pharasen als einzelnes Token.
zB: Amila Iddamalgoda, derzeit arbeiten, Animo Text Analytics Inc., follwoing, ...
Wie kann ich das erreichen? Bitte helfen Sie mir