Ich habe eine Reihe von Tweets in Klartextform, die unten gezeigt werden. Ich suche nur den Textteil zu extrahieren.Wie man eine Teilzeichenkette von der Textdatei in Python holt?
Beispieldaten in Datei -
Fri Nov 13 20:27:16 +0000 2015 4181010297 rt we're treating one of you lads to this d'struct denim shirt! simply follow & rt to enter
Fri Nov 13 20:27:16 +0000 2015 2891325562 this album is wonderful, i'm so proud of you, i loved this album, it really is the best. -273
Fri Nov 13 20:27:19 +0000 2015 2347993701 international break is garbage smh. it's boring and your players get injured
Fri Nov 13 20:27:20 +0000 2015 3168571911 get weather updates from the weather channel. 15:27:19
Fri Nov 13 20:27:20 +0000 2015 2495101558 woah what happened to twitter this update is horrible
Fri Nov 13 20:27:19 +0000 2015 229544082 i've completed the daily quest in paradise island 2!
Fri Nov 13 20:27:17 +0000 2015 309233999 new post: henderson memorial public library
Fri Nov 13 20:27:21 +0000 2015 291806707 who's going to next week?
Fri Nov 13 20:27:19 +0000 2015 3031745900 why so blue? @ golden bee
Dies ist mein Versuch im Vorprozess Bühne -
for filename in glob.glob('*.txt'):
with open("plain text - preprocesshurricane.txt",'a') as outfile ,open(filename, 'r') as infile:
for tweet in infile.readlines():
temp=tweet.split(' ')
text=""
for i in temp:
x=str(i)
if x.isalpha() :
text += x + ' '
print(text)
OUTPUT-
Fri Nov rt treating one of you lads to this denim simply follow rt to
Fri Nov this album is so proud of i loved this it really is the
Fri Nov international break is garbage boring and your players get
Fri Nov get weather updates from the weather
Fri Nov woah what happened to twitter this update is
Fri Nov completed the daily quest in paradise island
Fri Nov new henderson memorial public
Fri Nov going to next
Fri Nov why so golden
Dieser Ausgang ist nicht die gewünschte Ausgabe weil
1. Es wird mir Zahlen/Ziffern im Textteil des tweet holen nicht zulassen.
2. Jede Zeile beginnt mit FRI NOV.
Könnten Sie bitte vorschlagen, eine bessere Methode, um das gleiche zu erreichen? Ich bin nicht vertraut mit Regex, aber ich nehme an, wir könnten re.search(r'2015(magic to remove tweetID)/w*',tweet)
Was macht [-1]? Den Index direkt vor dem Leerzeichen setzen? –
@MayurH 'line.split (" ", 7)' teilt eine Zeile nach den ersten 7 Leerzeichen.Es erzeugt eine Liste, in der der Tweet-Text das letzte Element ist - wir erhalten es nach dem letzten Index. – alecxe
@MayurH Der Index '-1' in' [-1] 'zeigt auf die letzte Position in' '(gibt IndexError auf eine leere Liste). Sie können ausgefallene Sachen wie ' [-3:]' machen, um eine Liste der letzten drei Elemente usw. zu erhalten. –
quapka