Vorrei eseguire un'azione su una singola colonna. Sfortunatamente, dopo aver trasformato quella colonna, ora non fa più parte del dataframe da cui proviene, ma un oggetto Colonna. In quanto tale, non può essere raccolto.Come posso raccogliere una singola colonna in Spark?
Ecco un esempio:
df = sqlContext.createDataFrame([Row(array=[1,2,3])])
df['array'].collect()
Questo produce il seguente errore:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'Column' object is not callable
Come posso utilizzare la funzione collect()
su una sola colonna?
quindi utilizzando seleziona invece di subsetting essenzialmente trasforma questo in un frame di dati di una colonna invece di una colonna – Michal
Questo è giusto. 'Column' è solo un'espressione SQL DSL e non una struttura di dati autonoma. – zero323
Qual è l'equivalente in spark 2.0? Non riesco a vedere flatMap come metodo su DataFrame – ThatDataGuy