Un intervallo batch di dati genera uno e uno solo RDD in DStream indipendentemente da quanto è grande la quantità di dati?Quanti RDD vengono generati da DStream per un intervallo di batch?
10
A
risposta
8
Sì, esiste esattamente un RDD per intervallo batch, prodotto ad ogni intervallo di batch indipendentemente dal numero di record (inclusi nell'RDD - potrebbero esserci zero record all'interno).
Se non c'era, e la creazione di RDD era condizionata sul numero di elementi, non si avrebbe lo streaming sincrono (micro-batching), ma piuttosto una forma di elaborazione asincrona.
0
In Spark Streaming Programming Guide - Discretized Streams (DStreams), c'è:
Ogni RDD in DSTREAM contiene dati da un certo intervallo