Ho un grande set di dati archiviato in una tabella BigQuery e vorrei caricarlo in un RDD Pypark per l'elaborazione dei dati ETL.Connettore BigQuery per pyspark tramite Hadoop Esempio di formato di input
ho capito che BigQuery supporta il formato di Hadoop Input/Output
https://cloud.google.com/hadoop/writing-with-bigquery-connector
e pyspark dovrebbe essere in grado di utilizzare questa interfaccia, al fine di creare un RDD utilizzando il metodo "newAPIHadoopRDD".
http://spark.apache.org/docs/latest/api/python/pyspark.html
Purtroppo, la documentazione su entrambe le estremità sembra scarsa e va oltre la mia conoscenza di Hadoop/Spark/BigQuery. C'è qualcuno che ha capito come farlo?
Ciao, sì. In realtà avevo già capito me stesso. Comunque hanno pubblicato solo il connettore per scala. Metterò la soluzione usando pyspark come ho tempo. –