C'è qualche differenza nella semantica tra il df.na().drop()
e df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN())
dove df
è Apache SparkDataframe
?Differenza tra na(). Cadere() e filtro (col.isNotNull) (Apache Spark)
O devo considerarlo come un bug se il primo non restituisce dopo null
(non una stringa Null, ma semplicemente un valore null
) nella colonna onlyColumnInOneColumnDataFrame
e il secondo fa?
MODIFICA: aggiunto !isNaN()
pure. onlyColumnInOneColumnDataFrame
è l'unica colonna nel dato Dataframe
. Diciamo che il suo tipo è Integer
.
Potrebbe fornire un esempio di dati? – zero323
Ho notato quei 'null's con il seguente codice - https://gist.github.com/xjrk58/87dd094e2987ecc448db, ma proverò a semplificarlo e fornirò caso riproducibile con i dati di input. Per essere più precisi dopo aver chiamato 'df.show()' sulla riga 4, la colonna "definitionId" conteneva i valori 'null'. – JiriS