Sto cercando alcune risorse su quali sono le migliori pratiche per una pipeline di acquisizione dati basata su AWS che utilizza Kafka, storm, spark (streaming e batch) che legge e scrive su Hbase utilizzando vari micro servizi per esporre il livello dati. Per il mio ambiente locale sto pensando di creare o immagini docker o vaghe che mi permettano di interagire con l'ambiente. Il mio problema diventa come stare in piedi qualcosa per un ambiente funzionale end-to-end che è più vicino al pungolo, il modo più semplice sarebbe avere un ambiente sempre attivo ma che diventa costoso. Seguendo le stesse linee in termini di ambiente perf, sembra che potrei dover punt e avere account di servizio che possono avere la "corsa del mondo" ma altri account che saranno limitati tramite risorse di calcolo in modo da non sovraccaricare il cluster .Test di integrazione Big Data best practice
Sono curioso di sapere come altri hanno gestito lo stesso problema e se penso a questo all'indietro.