2009-11-27 14 views
5

Stavo cercando lo strumento ETL e su Google ho trovato molto su Pentaho Kettle.L'ETL e l'analizzatore di dati Pentaho sono una buona scelta?

Ho anche bisogno di un Data Analyzer per l'esecuzione su Star Schema in modo che l'utente aziendale possa giocare e generare qualsiasi tipo di report o matrice. Anche in questo caso PentaHo Analyzer ha un bell'aspetto.

Altre parti dell'applicazione verranno sviluppate in java e l'applicazione dovrebbe essere indipendente dal database.

Pentaho è abbastanza buono o ci sono altri strumenti che dovrei controllare.

risposta

0

Ho usato il Talend prima con un po 'di successo. Crei la tua traduzione concatenando le operazioni insieme in un designer grafico. C'erano sicuramente alcuni WTF ed era difficile gestire i record su più righe, ma funzionava bene diversamente.

Talend genera anche Java ed è possibile accedere ai processi ETL da remoto. Lo strumento è anche gratuito, sebbene fornisca formazione e supporto per le aziende.

3

Pentaho sembra essere abbastanza solido, offrendo l'intera suite di strumenti di BI, con un'integrazione migliorata secondo quanto riferito sulla strada. Ma ... è probabile che le aziende che vogliono seguire il percorso open source per la loro soluzione di BI abbiano anche più probabilità di utilizzare la tecnologia di database open source ... e in che il "database agnostico" di può facilmente essere un doppio a due punte Ad esempio, è possibile sviluppare un cubo nei servizi di analisi di Microsoft nella comoda consapevolezza che tutto ciò che MDX/XMLA il cubo invia al database verrà interpretato in modo coerente, con pochissime sorprese.

Confrontalo con lo stack Pentaho, che in genere termina l'interazione con Postgresql o Mysql. Non posso garantire come Postgresql funzioni nel regno OLAP, ma so per esperienza che Mysql - per tutti i suoi indubbi punti di forza - ha "problemi" con i tipi di SQL che tipicamente spuntano dappertutto in una soluzione OLAP (non è possibile andare lontano in un cubo senza usare GROUP BY o COUNT DISTINCT). Quindi parte di ciò che risparmi nei costi di licenza sarà quasi certamente usato per risolvere i problemi derivanti dal fatto che il Pentaho non sempre sa a quale database si sta parlando - rubando a Peter (almeno in parte) pagare Paul, per così dire.

+0

In realtà sembra che ci sia sempre più utenti Pentaho a partire da utilizzare (ad esempio Lucid) mysql vari open source colonna di db invece di e quindi è possibile ottenere prestazioni accecante dalle query di tipo OLAP. anche l'analisi fa fare un buon lavoro di caching - quindi, anche se le query sono lenti nel db sottostante, è solo un'una tantum colpito. Infine; Supporta le tabelle aggregate - ancora un altro modo per evitare quelle query lente - e il designer di aggregazione ordina tutto questo per te: è uno strumento molto utile. – Codek

1

Sfortunatamente, sono necessarie ulteriori informazioni. Ad esempio:

  • sarà necessario scambiare dati con applicazioni note (Oracle Financials, Remedy, ecc.)? In tal caso, puoi risparmiare un sacco di tempo con il denaro & con una soluzione ETL che supporta già quell'interfaccia.
  • quali prodotti di database (e versioni) e tipi di file avete bisogno di parlare?
  • è necessario supportare l'interrogazione dei servizi Web?
  • hai bisogno di un flusso di dati in tempo reale?
  • avete bisogno di controllo a livello di regola & conteggi per la contabilità di ogni singola riga
  • avete bisogno di elaborazione delta?
  • Quali tipi di macchine ti servono per funzionare? Linux? finestre? mainframe?
  • che tipo di controllo di versione, test e processi di compilazione dovranno rispettare questo strumento?
  • che tipo di scalabilità di prestazione & avete bisogno?
  • ti dispiace se il database finisce per guidare le trasformazioni?
  • hai bisogno di questo per l'esecuzione in userspace?
  • Avete bisogno di eseguire parti di esso su varie reti scollegati dal resto? (Non è raro per i processi di estrazione)
  • quanti interfacce e di ciò che la complessità non è necessario supportare?

È possibile dedicare molto tempo alla distribuzione e all'apprendimento di uno strumento ETL, solo per scoprire che in realtà non soddisfa molto bene le proprie esigenze. Farai meglio a prendertene un paio d'ore prima di scoprirlo.

+0

grazie per i tuoi parametri per scegliere lo strumento ... lo convaliderò sicuramente per Pentaho. Se consideri la risposta è vera per tutte le tue domande, Pentaho è buono? – flair

+0

Bene, è un rapido elenco di alto livello. Prenderò in considerazione anche il licensing, poiché mancano funzionalità critiche della versione gratuita (come l'amministrazione e gli avvisi remoti). E vorrei anche considerare quanto vuoi un approccio guidato dal modello. Personalmente, trovo che l'ETL basato sul modello è un PITA per circa il 20% del lavoro. Quello che mi piace di più è una cassetta degli attrezzi di librerie e strumenti per python/ruby ​​/ java/perl per poi interagire con. Per molti piccoli progetti, la creazione di librerie personali è la soluzione migliore per l'apprendimento di un prodotto di grandi dimensioni e la gestione di un altro fornitore. – KenFar

+0

Curioso; In che modo la versione a pagamento ha avvisi? – Codek

0

Ci sono un sacco di scelte. Guarda BIRT, Talend e Pentaho, se vuoi strumenti gratuiti. Se vuoi molto più robustezza, guarda Tableau e BIRT Analytics.