miei dataframes contiene un campo che è una data e appare nel formato stringa, come esempioPySpark: il filtraggio di un dataframe dal campo data nell'intervallo dove data è stringa
'2015-07-02T11:22:21.050Z'
devo filtrata del dataframe sulla la data per ottenere solo i record nell'ultima settimana. Così, ho cercato un approccio mappa dove ho trasformato le date delle stringhe agli oggetti datetime con strptime:
def map_to_datetime(row):
format_string = '%Y-%m-%dT%H:%M:%S.%fZ'
row.date = datetime.strptime(row.date, format_string)
df = df.map(map_to_datetime)
e poi vorrei applicare un filtro come
df.filter(lambda row:
row.date >= (datetime.today() - timedelta(days=7)))
riesco a ottenere il lavoro di mappatura ma il filtro non riesce con
TypeError: condition should be string or Column
c'è un modo per utilizzare un filtraggio in un modo che funziona o dovrei cambiare l'approccio e come?