Ho già eseguito l'installazione di scintille e ho eseguito alcuni test che impostano i nodi master e worker. Detto questo, ho una grossa confusione su cosa si intenda esattamente per lavoro nel contesto di Spark (non in SparkContext). Ho sotto domandeChe cos'è Spark Job?
- Quanto è diverso il lavoro da un programma Driver.
- L'applicazione stessa fa parte del programma Driver?
- Spark submit in un modo è un lavoro?
Ho letto il Spark documention ma ancora questa cosa non è chiara per me.
Detto questo, la mia implementazione è di scrivere lavori spark (programmaticamente) che vorrebbero inviare una scintilla.
Gentilmente aiutare con qualche esempio, se possibile. Sarebbe molto utile.
Nota: Gentilmente non postare collegamenti spark perché l'ho già provato. Anche se le domande sembrano ingenue, tuttavia ho bisogno di maggiore chiarezza nella comprensione.
è chiaro per me ora :) ma comunque ho un query su come scrivere la pianificazione del lavoro. Ho letto documenti ma non riesco ad ottenere il codice. – chaosguru
Beh, questo dipende molto dal tipo di infrastruttura che hai (stai usando Spark on Yarn per esempio?) Non è il mio forte seme, ma in linea di principio, lancio tutti i miei programmi di driver dagli script di Bash (per ricordare i parametri, creare cartelle di output, ecc.). Qualsiasi normale strumento di pianificazione in grado di eseguire un comando di console dovrebbe funzionare IMHO. Se ogni lavoro utilizza tutte le risorse nel cluster, è possibile semplicemente inviare programmi e attenderanno la liberazione delle risorse. –
Inoltre, sarebbe bello se si potesse accettare la risposta se chiarito le cose. Aiuta le persone che cercano domande senza risposta e quindi più domande ricevono risposta ;-) –