Sätze mit nltk.sent_tokenize teilen, liefert kein korrektes Ergebnis

Ich versuche, die Kommentare einiger Kunden in Sätze unter Verwendung nltk.sent_tokenize zu teilen. Ich habe bereits versucht, einige der Probleme mit dem folgenden Code zu lösen:Sätze mit nltk.sent_tokenize teilen, liefert kein korrektes Ergebnis

comment = comment.replace('?', '? ').replace('!', '! ').replace('..','.').replace('.', '. ')

Aber ich weiß nicht, wie die folgenden Probleme zu lösen:

Kunden verwendeten "." nach einigen Sätzen mehr. Zum Beispiel:
```
Think tool is a huge factor in this....i have only 
```
Kunden verwendet, um mehr "!" nach einigen Sätzen, wie auditory subject everyday!!!!!
einig sie Kombination von "!" und "." am Ende der Sätze verwendet.
Weil ich schon replace('.', '. ') verwendet, es verursacht auch folgendes Problem:

Gewicht (20lbs.) gewinnen, wurde aufgeteilt (20lbs.)

Jeder Vorschlag? Ich benutze Python.

Quelle

2016-10-03 Mary

Vollständig freier Text ist extrem problematisch, daher ist es unwahrscheinlich, dass ein einziger Satz von statischen Fixes überall funktioniert. Aber die Probleme, die Sie beschreiben, könnten behoben werden, indem Sie wiederholte Interpunktionszeichen auf eine einzige Instanz reduzieren, dann Leerzeichen nachher hinzufügen und dann Leerzeichen entfernen, bevor Sie die Klammern schließen. – tripleee

@tripleee, danke! Können Sie eine Lösung geben, mit der ich die Anzahl der wiederholten Zeichenfolgen reduzieren kann, z. B. "." oder "!". ? – Mary

Einfach genug mit einer Regex. 're (r '([;.::!?]) \ 1+', r '\ 1', 'Hallo ..... wie geht es dir ????')' – tripleee

Versuchen Sie es mit dem Punkt Sentence Tokenizer. Es ist vortrainiert, Sätze effektiv zu teilen und kann leicht in Ihren Code eingefügt werden.

Quelle

2016-10-04 05:54:52 YashTD

danke! Ich denke für Punkt Sentence Tokenizer brauche ich sowohl Zugset als auch Testset. Ich habe 220 Kundenkommentare für ein Produkt, schlage ich vor, ich teile den 220 Kommentar zu Training und Testset auf und verwende ihn dann, um Sätze zu trennen? – Mary

@Mary Sie könnten den Punkt Sentence Tokenizer trainieren, wenn Sie möchten, aber Sie könnten auch in einer vortrainierten Version wie folgt pürieren: 'psenttokenizer = nltk.data.load ('tokenizers/punkt/english.pickle')'. Sie könnten dann einfach die Tokenize-Funktion für dieses psenttokenizer-Objekt aufrufen und den Text als Parameter übergeben. – YashTD

Sätze mit nltk.sent_tokenize teilen, liefert kein korrektes Ergebnis

Antwort

Verwandte Themen