from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
, die direkt aus dem NLTK Handbuch ist. Was ich als nächstes tun möchte, ist vocab
mit einer erschöpfenden Menge von englischen Wörtern, wie der OED, zu vergleichen und den Unterschied zu extrahieren - der Satz von Finnegans Wake-Wörtern, die nicht und wahrscheinlich nie in der OED sein werden. Ich bin viel mehr eine verbale Person als eine Mathematik-orientierte Person, also habe ich noch nicht herausgefunden, wie man das macht, und das Handbuch geht viel zu sehr ins Detail über Sachen, die ich eigentlich nicht machen möchte. Ich gehe davon aus, dass es nur ein oder zwei weitere Codezeilen sind.
Übrigens, wie formatiere ich den Python in der Frage mit Highlights, wie es in einem Texteditor erscheinen würde? – magnetar
Geben Sie alles ein. Fertig, wenn Sie es markieren und auf die Schaltfläche mit Einsen und Nullen oberhalb des Editors klicken. – katrielalex
Oh, und Ihr Code ist nicht der effizienteste ... Sie könnten Iteratoren sinnvoll einsetzen, um die vielen Durchgänge zu speichern. – katrielalex