Esiste un modo migliore per aggiungere o rinominare tutte o più colonne contemporaneamente a SparkSQL dato DataFrame
piuttosto che chiamare più volte dataFrame.withColumnRenamed()
?Spark DataFrame e ridenominazione di più colonne (Java)
Un esempio sarebbe se voglio rilevare le modifiche (utilizzando il join esterno completo). Poi sono rimasto con due DataFrame
s con la stessa struttura.
E 'più di API Java e Spark. Ad esempio, 'select' si aspetta un parametro String e quindi varargs o array di' Column's che non è coerente e talvolta un po 'fastidioso da usare. Ho dovuto creare alcuni metodi di supporto per affrontare questo problema, ma sarebbe meglio avere quei metodi direttamente disponibili in 'DataFrame'. – JiriS
C'è un altro esempio [qui] (http://stackoverflow.com/questions/32535273/how-to-match-dataframe-column-names-to-scala-case-class-attributes) –
Hai provato il tuo codice con Spark 2.0? Ho a che fare con 7000 colonne, vedi https://github.com/ramhiser/datamicroarray/wiki/Golub-(999). Ci vuole sempre (= non è mai finito prima che la mia pazienza fosse finita). – Boern