2015-11-25 25 views
12

Ho il seguente comando da riga di comando per avviare un lavoro di streaming spark.Come specificare dipendenze multiple usando --packages per spark-submit?

spark-submit --class com.biz.test \ 
      --packages \ 
       org.apache.spark:spark-streaming-kafka_2.10:1.3.0 \ 
       org.apache.hbase:hbase-common:1.0.0 \ 
       org.apache.hbase:hbase-client:1.0.0 \ 
       org.apache.hbase:hbase-server:1.0.0 \ 
       org.json4s:json4s-jackson:3.2.11 \ 
      ./test-spark_2.10-1.0.8.jar \ 
      >spark_log 2>&1 & 

Il lavoro non viene avviato con il seguente errore:

Exception in thread "main" java.lang.IllegalArgumentException: Given path is malformed: org.apache.hbase:hbase-common:1.0.0 
    at org.apache.spark.util.Utils$.resolveURI(Utils.scala:1665) 
    at org.apache.spark.deploy.SparkSubmitArguments.parse$1(SparkSubmitArguments.scala:432) 
    at org.apache.spark.deploy.SparkSubmitArguments.parseOpts(SparkSubmitArguments.scala:288) 
    at org.apache.spark.deploy.SparkSubmitArguments.<init>(SparkSubmitArguments.scala:87) 
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:105) 
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) 

Ho provato a rimuovere la formattazione e il ritorno a una singola linea, ma che non risolve il problema. Ho anche provato un sacco di varianti: differenti versioni, ha aggiunto _2.10 alla fine del artifactId, ecc

Secondo la documentazione (spark-submit --help):

The format for the coordinates should be groupId:artifactId:version.

Quindi quello che ho dovrebbe essere valido e dovrebbe fare riferimento a this package.

Se è utile, eseguo Cloudera 5.4.4.

Cosa sto sbagliando? Come posso fare riferimento ai pacchetti di hbase correttamente?

+0

Sta funzionando bene? Nel mio caso ho dovuto aggiungere anche i jar tramite --jars e --driver-class-path. –

risposta

26

un elenco di pacchetti devono essere separati con una virgola, senza spazi bianchi (linee di rottura deve funzionare bene) per esempio

--packages org.apache.spark:spark-streaming-kafka_2.10:1.3.0,\ 
    org.apache.hbase:hbase-common:1.0.0 
+3

Ho scoperto che dovevo anche rimuovere gli spazi e le interruzioni di riga per farlo funzionare correttamente: '--packages org.apache.spark: spark-streaming-kafka_2.10: 1.3.0, org.apache.hbase: HBase-comune: 1.0.0' ... – davidpricedev