Voglio creare un DataFrame da un elenco di stringhe che potrebbe corrispondere allo schema esistente. Ecco il mio codice.Scala Spark: come creare un RDD da un elenco di stringhe e convertirlo in DataFrame
val rowValues = List("ann", "f", "90", "world", "23456") // fails
val rowValueTuple = ("ann", "f", "90", "world", "23456") //works
val newRow = sqlContext.sparkContext.parallelize(Seq(rowValueTuple)).toDF(df.columns: _*)
val newdf = df.unionAll(newRow).show()
Lo stesso codice non funziona se si utilizza l'elenco di stringhe. Vedo che la differenza è con rowValueTuple
a Tuple
è stato creato. Poiché le dimensioni dell'elenco rowValues
cambiano dinamicamente, non riesco a creare manualmente l'oggetto Tuple*
. Come posso fare questo? Cosa mi manca? Come posso appiattire questo elenco per soddisfare il requisito?
Apprezzo il tuo aiuto, per favore.
Il primo ti dà un DF con una colonna e 5 righe. Il secondo ti dà un DF con una singola riga con una singola colonna che contiene una tupla. Cose molto diverse –