2017-01-05 6 views
0

Does Pythons NLTK Toolkit zurückgeben unterschiedliche Ergebnisse für jede Iteration von:Gibt NLTK bei jedem Lauf unterschiedliche Ergebnisse zurück?

1) tokenization

2) POS-Tagging?

Ich verwende NLTK, um eine große Textdatei zu markieren. Die Tokenliste von Tupeln hat jedes Mal eine andere Größe. Warum ist das?

+2

wir würden eine [mcve] benötigen –

Antwort

0

Sie ändern weder ihre Logik noch ihre Berechnung in einer iterativen Schleife.

In NLTK, tokenzation ist standardmäßig regelbasierte, Reguläre Ausdrücke verwenden, Token ein trainiertes Modell für Englisch standardmäßig geteilt verwendet, aus einem Satz

POS-Tagging und wird daher den gleichen POS-Tag pro Token geben für das gegebene trainierte Modell. Wenn dieses Modell erneut trainiert wird, wird es sich ändern.

Deshalb ist die grundlegende Antwort auf Ihre Frage ist no

0

Sowohl die Tagger und die tokenizer deterministisch sind. Es ist zwar möglich, dass die Iteration über ein Python-Wörterbuch bei jeder Ausführung des Programms Ergebnisse in einer anderen Reihenfolge liefert, dies hat jedoch keine Auswirkungen auf die Tokenisierung - und daher sollte die Anzahl der Token (markiert oder nicht) nicht variieren. Etwas anderes stimmt nicht mit deinem Code.

Verwandte Themen