Sto ancora lottando per comprendere tutta la potenza dei set di dati Spark introdotti di recente. Esistono best practice su quando utilizzare gli RDD e quando utilizzare i set di dati? Nei loro announ
Sto tentando di utilizzare l'API Spark Dataset ma sto riscontrando alcuni problemi nel fare un semplice join. Diciamo che ho due set di dati con i campi: date | value, quindi nel caso di DataFrame il
Ho un RDD[LabeledPoint] destinato a essere utilizzato all'interno di una pipeline di apprendimento automatico. Come convertire tale RDD in un DataSet? Nota le nuove apis spark.ml richiedono input nel
ho scritto: object SimpleApp {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Simple Application").setMaster("local")
val sc = new SparkContext(conf)
val ct