fondo (scusate è così a lungo):R vs Pentaho cucchiaio come uno strumento di ETL
Sono stato incaricato con il mantenimento di un ETL che raccoglie una serie di dati di pubblicità online, circa 20-30 MB al giorno, e lo aggiunge alle tabelle in MySQL. Gli appaltatori esterni hanno costruito l'ETL con Pentaho Spoon (cucina, bollitore?). L'ETL consiste di circa 250 lavori e trasformazioni (.ktr, .kjb), ciascuno con circa 5 o 25 passi. È molto comune che qualcosa stia andando storto in questo grande processo. Ho scoperto che scrivere script R per fare la trasformazione e caricare è molto più efficiente. In effetti, penso che l'ETL potrebbe essere ridotto a meno di 1000 righe di codice oltre alle chiamate con RMySQL (cioè plyr!). Forse Python verrebbe utilizzato per estrarre i dati dal web.
Il mio uso di R ha portato ad alcune resistenze. I programmatori di computer che hanno progettato l'ETL non conoscono R quindi non potrebbero essere chiamati se me ne vado, e inoltre un sacco di tempo è stato investito nell'ETL di Spoon. Inoltre, un laico può seguire più facilmente i passi visivamente in Spoon, che negli script R. Da parte mia, penso che siamo impantanati dall'ETL. Tuttavia, non ho una grande voce in materia in quanto non ho esperienza in informatica.
Si prega di commentare se avete approfondimenti su quanto segue. Si prega so Sto ricercando questo per mesi e che ho letto molte opinioni, ma niente di più conciso e affidabili come SO fornisce in genere:
R è stato chiamato non come scalabile da alcuni presso l'azienda. Penso al contrario soprattutto per via delle capacità di registrazione. Spoon ha limitato il puro output di logging, mentre tutti gli script R possono essere inseriti in un log giornaliero. Riparare ed evitare errori nel .ktrs è molto noioso, ma facile con l'impostazione di flag e/o la ricerca nel registro R. Qualche idea su questo?
Questo porta a una grande domanda. Qual è il punto di ETL come Pentaho? Questo post Do I need a ETL?, mi porta a credere che se usi R o altri cosiddetti OOL, non c'è motivo di avere uno strumento come Pentaho. Qualcuno può confermare questo se è così? Ho davvero bisogno di una seconda opinione qui. Se è così, chi usa strumenti come Pentaho? Sono semplicemente persone senza lo sfondo della programmazione o qualcun altro? Vedo una discreta quantità di domande Pentaho su SO.
È vero che molte più persone usano R e Pentaho, giusto? Questo http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html fa sembrare così. Ad essere onesti, sono rimasto sorpreso dal fatto che Pentaho fosse il 5 °, il che mi fa doppiamente meravigliare chi usa Pentaho e se i miei dubbi sul suo utilizzo nel mio ambiente di lavoro sono mal riposti.
Grazie per eventuali risposte. Non intendo condiscendenza nei confronti degli utenti di Spoon o Spoon; Sono solo molto confuso e ho bisogno di opinioni esterne.
Suggerisci di fare questa domanda più avanti quora allora - che sembra essere un posto migliore per soggettivo discussione/dibattito. Penso che sia un argomento eccezionale e vale la pena di discuterne da qualche parte. – Codek
Interessante Non sono l'unico a pensarci: il BARUG vuole concentrarsi su un incontro. http://www.meetup.com/R-Users/events/47885552/?a=md1_evn&rv=md1&_af_eid=47885552&_af=event. FWIW, ho lasciato questo lavoro dopo solo 1 anno perché l'inefficienza mi stava facendo impazzire. Fortunatamente e penso che utilizzi efficacemente R in un ambiente di avvio ora. – StatSandwich
Uso già data.table per i processi ETL in R, la sintassi è amichevole e ogni parentesi DT [,] può essere confrontata con il blocco di trasformazione in termini di ETL. Per quanto riguarda la domanda 1. è possibile effettuare un processo di registrazione per registrare tutto ciò che si desidera: tempo di trasformazione, elaborazione elaborata, messaggio di errore rilevato. Basta rilasciare il file log_dt (data.table/data.frame) su dbWriteTable. – jangorecki