Ich versuche, eine Zeichenfolge in Wörter und Interpunktion aufzuteilen, indem ich die Interpunktion der Liste hinzufüge, die durch die Aufteilung erzeugt wurde.Eine Zeichenfolge in Wörter und Satzzeichen aufteilen
Zum Beispiel:
>>> c = "help, me"
>>> print c.split()
['help,', 'me']
Was ich wirklich die Liste aussehen soll ist:
['help', ',', 'me']
Also, ich möchte bei Leerzeichen die Zeichenfolge Spaltung mit der Interpunktion Split aus den Worten.
Ich habe versucht, die Zeichenfolge zuerst zu analysieren und dann die geteilte:
>>> for character in c:
... if character in ".,;!?":
... outputCharacter = " %s" % character
... else:
... outputCharacter = character
... separatedPunctuation += outputCharacter
>>> print separatedPunctuation
help , me
>>> print separatedPunctuation.split()
['help', ',', 'me']
Dies erzeugt das Ergebnis, das ich will, aber es ist sehr langsam auf große Dateien.
Gibt es eine Möglichkeit, dies effizienter zu tun?
Für dieses Beispiel (nicht der allgemeine Fall) 'c.replace (' ' '') Partition (',')' –