sto analizzando alcuni dati con dataframes pyspark, supponiamo di avere un dataframe df
che sto aggregazione:colonne ridenominazione per dataframes pyspark aggregati
df.groupBy("group")\
.agg({"money":"sum"})\
.show(100)
Questo mi darà:
group SUM(money#2L)
A 137461285853
B 172185566943
C 271179590646
L'aggregazione funziona bene ma non mi piace il nome della nuova colonna "SUM (money # 2L)". C'è un modo pulito per rinominare questa colonna in qualcosa di leggibile dal metodo .agg
? Forse qualcosa di più simile a quello che si potrebbe fare in dplyr
:
df %>% group_by(group) %>% summarise(sum_money = sum(money))
Molto utile e attuale. Stavo per fare la stessa domanda. Sarebbe bello se potessi specificare un nuovo nome di colonna all'interno del dict 'agg' (all'interno di Spark intendo). –
@EvanZamir ringrazia! Potrei provare a fare un semplice PR in scintilla per quello. –