2015-12-30 24 views
10

Sto cercando alcune risorse su quali sono le migliori pratiche per una pipeline di acquisizione dati basata su AWS che utilizza Kafka, storm, spark (streaming e batch) che legge e scrive su Hbase utilizzando vari micro servizi per esporre il livello dati. Per il mio ambiente locale sto pensando di creare o immagini docker o vaghe che mi permettano di interagire con l'ambiente. Il mio problema diventa come stare in piedi qualcosa per un ambiente funzionale end-to-end che è più vicino al pungolo, il modo più semplice sarebbe avere un ambiente sempre attivo ma che diventa costoso. Seguendo le stesse linee in termini di ambiente perf, sembra che potrei dover punt e avere account di servizio che possono avere la "corsa del mondo" ma altri account che saranno limitati tramite risorse di calcolo in modo da non sovraccaricare il cluster .Test di integrazione Big Data best practice

Sono curioso di sapere come altri hanno gestito lo stesso problema e se penso a questo all'indietro.

risposta

0

AWS offre anche un servizio Docker tramite contenitori EC2. Se la distribuzione locale che utilizza le immagini di Docker ha esito positivo, puoi provare AWS EC2 Container Service (https://aws.amazon.com/ecs/).

Inoltre, controlla tempesta mobile (https://github.com/wurstmeister/storm-docker), fornisce file di finestra mobile di facile utilizzo per la distribuzione di cluster di tempesta.

0

Prova mini cluster hadoop. Ha il supporto per la maggior parte degli strumenti che stai utilizzando.

Mini Cluster