Ich bin auf der Suche nach einer Möglichkeit, Daten (Tag, Monat, Jahr) aus einem Text zu extrahieren. Das heißt, ich möchte alle Daten (oder vielmehr - so viele wie möglich) in einer vom Menschen geschriebenen Zeichenfolge finden.Allgemein Python Regex, um Daten (d, m, y) in verschiedenen Formaten zu extrahieren
Gibt es einen regulären Python-Ausdruck, der so viele mögliche Formate wie möglich abdeckt?
Kommentar:
from dateutil.parser import parse
parse(s, fuzzy = True)
funktioniert gut, aber es ist beschränkt auf ein Datum nach einer Zeichenfolge.
Beispiel:
Ein Programm statt etw vom 21. Januar 2013 bis zum 15. Februar 2013 unter Anträge auf Förderung werden 15 bis April angenommen, 2012 Benachrichtigung über die Annahme: 1. August oder später. Vorzeitige Zahlung fällig: 15.10.12. usw. Spät: 20.11.12.
Normalerweise (aber nicht immer) Konvention ist mehr oder weniger konsistent für einen einzigen Eintrag.
Es ist einfach, eine Regex für ein paar Fälle zu erstellen, kann ich das tun. Die Frage ist, ob es bereits eine Sammlung von vielen verschiedenen gibt.
Reguläre Ausdrücke sind nicht Parser. –
@ IgnacioVazquez-Abrams Pars geändert -> extrahieren. –
können Sie uns ein Beispiel für die Eingabe geben? – KurzedMetal