Ich habe ein Textdokument mit 32 Artikeln und ich möchte das Datum jedes Artikels erkennen. Ich habe beobachtet, dass das Datum in der 5. Reihe jedes Artikels steht. Bisher habe ich den Text in die Verwendung von 32 Artikeln aufgeteilt:Datumsliste im Text
import re
sections = []
current = []
with open("Aberdeen2005.txt") as f:
for line in f:
if re.search(r"(?i)\d+ of \d+ DOCUMENTS", line):
sections.append("".join(current))
current = [line]
else:
current.append(line)
print(len(sections))
Ich werde wie eine Liste erstellen, die das Datum für jeden Artikel, Monat und Jahr nur enthält:
Wie es zu sehen ist Das Datum kommt im Format des obigen Bildes, aber manchmal ist der Tag nicht enthalten, z Donnerstag.
Irgendwelche Ideen?
Mit freundlichen Grüßen
Andres
Ps. Hier ist ein weiteres Beispiel für die 16-Dokument:
Wie würde der Code aussehen? –
Ich erhalte einen Fehler bei den Tabs und Leerzeichen, wenn ich versuche, sie einzufügen. Trotzdem ist die Idee fantastisch, vielen Dank! –
Gern geschehen! Es ist schwer zu sagen, wie die Zeilenformatierung aus dem Bild aussieht, also wenn Sie die ersten 5 Zeilen eines Artikels in Ihre Frage schreiben können, die Ihnen helfen könnten. Was ist der Fehler genau? –