Pseudocode würde wie folgt aussehen:
create words, a list of words, by splitting the input by whitespace
for every word, strip out whitespace and punctuation on the left and the right
Der Python-Code würde wie folgt sein:
words = input.split()
words = [word.strip(PUNCTUATION) for word in words]
wo
PUNCTUATION = ",. \n\t\\\"'][#*:"
oder andere Zeichen, die Sie entfernen möchten.
Ich glaube, Java hat gleichwertige Funktionen in der String-Klasse: String .split().
Output diesen Code laufen auf dem Text, den Sie in Ihrem Link zu finden:
>>> print words[:100]
['Project', "Gutenberg's", 'Manual', 'of', 'Surgery', 'by', 'Alexis',
'Thomson', 'and', 'Alexander', 'Miles', 'This', 'eBook', 'is', 'for',
'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and',
'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may',
'copy', 'it', 'give', 'it', 'away', 'or', 're-use', 'it', 'under',
... etc etc.
Ich musste die Regexp leicht ändern, um keine Zahlen, Unterstriche und keine Wörter zu enthalten, die mit einem Zitat beginnen, aber ansonsten gut! –
Ich musste dem \ w wie folgt entkommen: 'Pattern.compile (" [\\ w '] + ");' – ScrollerBlaster
@ScrollerBlaster Das ist richtig. Ich werde es reparieren, danke! – Tomalak