Come raccogliere queste metriche su una console (Spark Shell o Spark submit job) subito dopo l'esecuzione dell'attività o del lavoro.Come recuperare le metriche come la dimensione dell'output e i record scritti dall'interfaccia utente di Spark?
Usiamo Spark per caricare dati da Mysql a Cassandra ed è piuttosto grande (ad es .: ~ 200 GB e 600M righe). Quando l'attività è terminata, vogliamo verificare quante righe ha esattamente elaborato la scintilla? Possiamo ottenere il numero da Spark UI, ma come possiamo recuperare quel numero ("Output Records Written") da spark shell o in spark-submit job.
Esempio di comando da caricare da Mysql a Cassandra.
val pt = sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://...:3306/...").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "payment_types").option("user", "hadoop").option("password", "...").load()
pt.save("org.apache.spark.sql.cassandra",SaveMode.Overwrite,options = Map("table" -> "payment_types", "keyspace" -> "test"))
voglio recuperare tutte le metriche Spark UI sul compito in senso prevalentemente formato di output e documenti scritti.
Per favore aiuto.
Grazie per il vostro tempo!