Sto cercando di implementare un'architettura Lambda utilizzando i seguenti strumenti: Apache Kafka per ricevere tutti i datapoint, Spark per l'elaborazione in batch (Big Data), Spark Streaming in tempo reale (dati veloci) e Cassandra per memorizzare i risultati.Lambda Architecture con Apache Spark
Inoltre, tutti i datapoint che si ricevono sono correlati a una sessione utente e, pertanto, per l'elaborazione batch, sono interessato solo a elaborare i punti dati una volta che la sessione è terminata. Quindi, dal momento che sto usando Kafka, l'unico modo per risolverlo (supponendo che tutti i punti dati siano memorizzati nello stesso argomento) è che il batch recuperi tutti i messaggi nell'argomento e quindi ignori quelli che corrispondono alle sessioni che non ho ancora finito.
Quindi, quello che vorrei porre è:
- È questo un buon approccio per l'attuazione del Lambda Architettura? O dovresti usare invece Haddop e Storm? (Non riesco a trovare informazioni su persone che usano Kafka e Apache Spark per l'elaborazione in batch, Riduzione mappa)
- Esiste un approccio migliore per risolvere il problema delle sessioni utente?
Grazie.