Se ho un RDD di tuple con 5 elementi, per esempio, RDD (Double, String, int, double, double)Come ordinare un RDD di tuple con 5 elementi in Spark Scala?
Come posso risolvere questo RDD efficiente utilizzando il quinto elemento?
Ho provato a mappare questo RDD in coppie chiave-valore e usato sortByKey, ma sembra che sortByKey sia piuttosto lento, è più lento di quanto ho raccolto questo RDD e usato sortWith sull'array raccolto. Perché è così?
Grazie mille.
"è più lento di Ho raccolto questo RDD e usato sortWith sull'array raccolta." Ovviamente è. Se lo raccolgono, tutto è su un nodo e quindi stai facendo un ordinamento in memoria Spark è per dataset di grandi dimensioni che non si adattano a un nodo, e c'è un overhead (considerevole) rispetto al calcolo a nodo singolo. Se non hai un set di dati così grande, probabilmente non vuoi usare Spark. Non è una soluzione magica per "rendere le cose più veloci". –
Grazie per la spiegazione. – Carter