Il problema sorge quando chiamo describe
funzione su un dataframe:Spark 1.6: filtraggio DataFrames generati da descrivere()
val statsDF = myDataFrame.describe()
Calling funzione descrivere produce l'uscita seguente:
statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string]
posso mostrare statsDF
normalmente chiamando statsDF.show()
+-------+------------------+
|summary| count|
+-------+------------------+
| count| 53173|
| mean|104.76128862392568|
| stddev|3577.8184333911513|
| min| 1|
| max| 558407|
+-------+------------------+
Vorrei ora per ottenere la deviazione standard e la media da statsDF
, ma quando sto cercando di raccogliere i valori facendo qualcosa di simile:
val temp = statsDF.where($"summary" === "stddev").collect()
sto ottenendo Task not serializable
eccezione.
Sono anche affrontando la stessa eccezione quando chiamo:
statsDF.where($"summary" === "stddev").show()
Sembra che non siamo in grado di filtrare DataFrames generati dalla describe()
funzione?
Sto votando su. È strano ora poter filtrare sul DF creato descrivendo – eliasah