My Datenrahmen enthält ein Feld, das ein Datum ist, und es erscheint in dem String-Format, wie in BeispielPySpark: Filtern einen Datenrahmens von Datumsfeld in Bereich, in dem Datum ist Zeichenfolge
'2015-07-02T11:22:21.050Z'
ich den Datenrahmen filtern, muß sich auf das Datum, um nur die Datensätze in der letzten Woche zu erhalten. Also, ich habe versucht, eine Karte Ansatz, wo ich die Zeichenfolge Datums Datetime-Objekte mit strptime transformiert:
def map_to_datetime(row):
format_string = '%Y-%m-%dT%H:%M:%S.%fZ'
row.date = datetime.strptime(row.date, format_string)
df = df.map(map_to_datetime)
und dann würde ich einen Filter als
df.filter(lambda row:
row.date >= (datetime.today() - timedelta(days=7)))
ich das Mapping Arbeits erhalten verwalten anzuwenden aber die Filter nicht mit
TypeError: condition should be string or Column
gibt es eine Möglichkeit, eine Filterung in eine Art und Weise zu verwenden, das funktioniert, oder soll ich den Ansatz ändern und wie?