Ich bin auf der Suche nach etwas Text aus einem rohen Kreditkarten-Feed für einen Workflow zu extrahieren. Ich bin fast dahin gekommen, wo ich möchte, aber ich kämpfe mit der letzten Information, die ich zu extrahieren versuche.Extrahieren von Daten mit Regex von Bank-Feed
Ein Beispiel für den Roh-Feed ist:
LEO'SFINEFOOD&WINEHARTWELLJune350.0735.00ICGROUP,INC.MELBOURNEJune5UNITEDSTATESDOLLARAUD50.07includesconversioncommissionofAUD1.469.96WOOLWORTHS3335CHADSTOCHADSTONE
ich dies aus der oben zu extrahieren suchen:
(ICGROUP,INC.MELBOURNE)June5UNITEDSTATESDOLLARAUD(50.07)includesconversioncommissionof
mit den Klammern, die die beiden Gruppen I nach bin. Die konsistenten Teile über alle Instanzen hinweg von dem, was ich zu extrahieren bin versucht:
DIGITS (TEXT) DATE TEXT AMOUNT includesconversioncommissionof
ich in der Lage, die regex zu verwenden:
([A-Z][a-z]\d)[A-Z]AUD(\d\,?\d+?.\d*)includesconversioncommissionofAUD
mir das Datum und den Betrag zu erhalten. Ich kämpfe, um einen Weg zu finden, wie nach dem Beispiel über die Wörter ICGROUP,INC.MELBOURNE
Ich habe versucht, setzen \d\d(.*)
vor dem oben genannten Regex, aber das funktioniert aus irgendeinem Grund nicht.
Würde mich freuen, wenn jemand in der Lage ist, mit dem zu helfen, wonach ich suche!
Was ist dieses schreckliche Format? Wie können Sie im Teil "WELLJune350.07" wissen, wo das Datum endet und wo der Betrag beginnt?Okay, es gibt keinen 35. Juni, aber was wäre, wenn es "Juni250.07" wäre? Sind das am 2. Juni 50 Dollar oder am 25. Juni 0.07 Dollar? –
Das ist ziemlich hart und dehnt definitiv die Grenzen dessen aus, was vernünftig getan werden kann. Sind Sie sicher, dass sie Ihnen die Daten nicht mit einigen Begrenzern senden können? Ist der Wert in der Position nach 'ICGROUP, INC.MELBOURNE' immer der vollständige Name des Monats gefolgt von einem numerischen Tag? – mwp
Hey! Ich war schon öfters bei "LEO'SFINEFOOD & WEINHARTWELL" :) – Bohemian