Qual è la sintassi per invertire l'ordine per il metodo takeOrdered() di un RDD in Spark?Come annullare l'ordine per RDD.take Order()?
Per i punti bonus, qual è la sintassi per l'ordinazione personalizzata per un RDD in Spark?
Qual è la sintassi per invertire l'ordine per il metodo takeOrdered() di un RDD in Spark?Come annullare l'ordine per RDD.take Order()?
Per i punti bonus, qual è la sintassi per l'ordinazione personalizzata per un RDD in Spark?
ordine inverso
val seq = Seq(3,9,2,3,5,4)
val rdd = sc.parallelize(seq,2)
rdd.takeOrdered(2)(Ordering[Int].reverse)
Risultato sarà Array (9,5)
Ordine Personalizzato
Abbiamo ordinerà le persone per età.
case class Person(name:String, age:Int)
val people = Array(Person("bob", 30), Person("ann", 32), Person("carl", 19))
val rdd = sc.parallelize(people,2)
rdd.takeOrdered(1)(Ordering[Int].reverse.on(x=>x.age))
Risultato sarà Array (Person (Ann, 32))
val rdd1 = sc.parallelize(List(("Hadoop PIG Hive"), ("Hive PIG PIG Hadoop"), ("Hadoop Hadoop Hadoop")))
val rdd2 = rdd1.flatMap(x => x.split(" ")).map(x => (x,1))
val rdd3 = rdd2.reduceByKey((x,y) => (x+y))
// ordine inverso (Ordine decrescente)
rdd3.takeOrdered(3)(Ordering[Int].reverse.on(x=>x._2))
uscita:
res0: Array[(String, Int)] = Array((Hadoop,5), (PIG,3), (Hive,2))
// Ascendente Ordine
rdd3.takeOrdered(3)(Ordering[Int].on(x=>x._2))
uscita:
res1: Array[(String, Int)] = Array((Hive,2), (PIG,3), (Hadoop,5))
Per fare Ascending Ordina che dobbiamo fare >>> rdd.takeOrdered (2) o >>> rdd.takeOrdered (2) (Ordering [Int]). Come impostazione predefinita, è ordinato in ordine ascendente. Ma invece un modo più ottimizzato di farlo usando il comando top (2). –
Per ordine personalizzato in ordine crescente >>> rdd.takeOrdered (1) (Ordinamento [Int] .on (x => x.age)). Foreach (println) ... Per ordinare personalizzato su campo stringa di un oggetto >> > rdd.takeOrdered (1) (per l'ordine [String] .on (x => x.name)). foreach (println) –