Sto cercando di sostituire una serie di script ETL Python che eseguono un riepilogo dei dati notturni/orari e la raccolta di statistiche su una grande quantità di dati.Spring-Batch per un'enorme elaborazione notturna/oraria Hive/MySQL
Quello che mi piacerebbe realizzare è
- Robustezza - un posto di lavoro/step in mancanza deve essere riavviato automaticamente. In alcuni casi, mi piacerebbe eseguire invece una fase di ripristino.
- Il framework deve essere in grado di ripristinare da arresti anomali. Immagino che sarebbe necessaria una certa persistenza qui.
- Monitoraggio - Devo essere in grado di monitorare lo stato di avanzamento dei lavori/passaggi e preferibilmente visualizzare cronologia e statistiche relative alle prestazioni.
- Tracciabilità - Devo essere in grado di comprendere lo stato delle esecuzioni
- Intervento manuale - bello avere ... essere in grado di avviare/interrompere/sospendere un lavoro da un'API/interfaccia utente/riga di comando.
- Semplicità: preferisco non arrabbiarmi con i colleghi quando introduco la sostituzione ... Avere un'API semplice e facile da capire è un requisito.
Gli script attuali effettuare le seguenti operazioni:
- registri di testo raccogliere da molte macchine, e li spingono in Hadoop DFS. Potremmo utilizzare Flume per questo passaggio in futuro (vedere http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/).
- Eseguire le query di riepilogo sui dati e inserire (sovrascrivere) le nuove tabelle/partizioni di Hive con Hive.
- Estrarre i nuovi dati di riepilogo in file e caricare (unire) in tabelle MySql. Questi sono i dati necessari in seguito per i rapporti online.
- Eseguire ulteriori join sui dati MySql appena aggiunti (dalle tabelle MySql) e aggiornare i dati.
La mia idea è di sostituire gli script con spring-batch. Ho anche esaminato Scriptella, ma credo che sia troppo "semplice" per questo caso.
da quando ho visto alcune vibrazioni negative su Spring-Batch (principalmente vecchi post) spero di ottenere alcuni input qui. Inoltre, non ho visto molto sull'integrazione Spring-batch e Hive, il che è problematico.
Questi script sono nati nel peccato.Lo so, li ho scritti :) – Yossale
Spank per la tua eredità @yossale –
Fintanto che non sono io quello che deve sistemarlo .. :) – Yossale