Ho un dataframe che ho letto da un file CSV con molte colonne come: timestamp, passi, frequenza cardiaca eccCome sommare i valori di una colonna di una dataframe scintille/Scala
voglio sommare il valori di ciascuna colonna, ad esempio il numero totale di passaggi sulla colonna "steps".
Per quanto vedo voglio usare questo tipo di funzioni: http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$
ma posso capire come utilizzare la funzione sum.
Quando scrivo la seguente:
val df = CSV.load(args(0))
val sumSteps = df.sum("steps")
la somma funzione non può essere risolto.
È possibile utilizzare la somma della funzione in modo errato? È necessario utilizzare prima la mappa delle funzioni? e se sì come?
Un semplice esempio sarebbe molto utile! Ho iniziato a scrivere Scala di recente.
Nizza opzione! È ancora più efficiente se vuole la somma di molte colonne? In un dataframe so che sarebbe come 'df.agg (sum (" col1 "), sum (" col2 "), ...)' –
@DanieldePaula So che ha detto ** una colonna ** –
Oh, Ho letto "Voglio sommare i valori di ogni colonna (...)" e ho pensato che intendesse molte colonne. Ad ogni modo, la mia domanda era più per curiosità, per aiutare a migliorare le nostre risposte. –