Spark fornisce il metodo saveAsTextFile
che può memorizzare facilmente RDD[T]
su disco o hdf.Come caricare i dati dal file salvato con Spark
T è una classe serializzabile arbitraria.
Voglio invertire l'operazione. Mi chiedo se esiste uno loadFromTextFile
che può facilmente caricare un file in RDD[T]
?
Vorrei che fosse chiaro:
class A extends Serializable {
...
}
val path:String = "hdfs..."
val d1:RDD[A] = create_A
d1.saveAsTextFile(path)
val d2:RDD[A] = a_load_function(path) // this is the function I want
//d2 should be the same as d1
ma genera RDD [String], ho bisogno di RDD [T]. – worldterminator
Penso che Spark di default non supporti questo. Ma puoi convertire il tuo RDD originale in un tipo specifico. Sto aggiornando la mia risposta. Si prega di verificare. – Ramana