Sono molto nuovo nell'usare Google Cloud Dataflow. Vorrei ottenere il prodotto cartesiano di due PC. Ad esempio, se ho due PColections (1, 2)
e ("hello", "world")
, il loro prodotto cartesiano è ((1, "hello"), (1, "world"), (2, "hello"), (2, "world"))
.Come ottenere il prodotto cartesiano di due PC:
Qualche idea su come potrei farlo? Inoltre, poiché il prodotto cartesiano potrebbe essere grande, spero che la soluzione crei pigramente il prodotto, evitando così un enorme consumo di memoria.
Grazie!
Avete ulteriori dettagli su ciò che state cercando di fare? Quanto sono grandi ciascuno dei PCollections? Ci sono diversi modi per ottenere questo risultato, e quale è meglio dipende dal motivo per cui si desidera il prodotto cartesiano e le effettive raccolte di PC coinvolte. –
I due PC sono identici. Entrambi contengono circa 100.000 tuple di tipo '(String, String)'. Sto usando un dizionario di parole inglesi e ho ottenuto la loro trascrizione fonetica al fine di generare giochi di parole di 2 parole, come: "fantasti-CAL-ifornia". –
Per una soluzione cartesiana diretta, [questo] (http://stackoverflow.com/a/41051283/377366) sembra essere la migliore risposta disponibile per ora. – KobeJohn