Spark è in esecuzione su un cluster CDH5.3 Cloudera, utilizzando YARN come gestore risorse. Sto sviluppando app Spark in Python (PySpark).Elaborazione distribuita di PySpark su un cluster YARN
Posso inoltrare lavori e funzionano con successo, tuttavia non sembrano mai funzionare su più di una macchina (la macchina locale inviata da).
Ho provato diverse opzioni, come impostare --diploy-mode in cluster e --master in filato-client e filato-cluster, ma non sembra mai funzionare su più di un server.
Posso farlo funzionare su più di un core passando qualcosa come --master local [8], ma ovviamente non distribuisce l'elaborazione su più nodi.
ho una molto semplicemente Python elaborazione dei dati di script da HDFS in questo modo:
import simplejson as json
from pyspark import SparkContext
sc = SparkContext("", "Joe Counter")
rrd = sc.textFile("hdfs:///tmp/twitter/json/data/")
data = rrd.map(lambda line: json.loads(line))
joes = data.filter(lambda tweet: "Joe" in tweet.get("text",""))
print joes.count()
E Sono in esecuzione di un comando di presentare come:
spark-submit atest.py --deploy-mode client --master yarn-client
Che cosa posso fare per garantire le piste di lavoro in parallelo attraverso il cluster?
Immagino che questo non sia vero, Pyspark può funzionare su un cluster di filati. –
Se si desidera eseguire Pyspark. Prova: pyspark - client in -deploy-mode --master yarn-client – kennyut