(ancor più fondamentale di Difference between Pig and Hive? Why have both?)L'utilizzo di Pig/Hive per l'elaborazione dei dati invece della mappa java diretta riduce il codice?
Ho una pipeline di elaborazione di dati scritti in diversi Java mappa-ridurre compiti oltre Hadoop (il mio codice personalizzato, derivati da Mapper di Hadoop e riduttore). È una serie di operazioni di base come join, inverse, sort e group by. Il mio codice è coinvolto e non molto generico.
Quali sono i pro e i contro del proseguimento di questo approccio che richiede un elevato sviluppo di sviluppo rispetto alla migrazione di tutto a Pig/Hive con diverse UDF? quali lavori non sarò in grado di eseguire? subirò un degrado delle prestazioni (lavorando con 100s di TB)? perderò la capacità di modificare e correggere il mio codice durante la manutenzione? sarò in grado di eseguire la pipeline di parte dei lavori come Java map-ridurre e utilizzare il loro input-output con i miei lavori Pig/Hive?
(lavoro su Pig su Twitter): il numero 110-150% è in qualche modo arbitrario. Spesso, Pig sarà molto più veloce del tuo codice perché fa un sacco di ottimizzazioni. Fondamentalmente, traduce le cose in MR, quindi non può essere più veloce di MR. Ma il semplice codice MR da principiante a intermedio spesso si perde su Pig. – SquareCog
Thnx per l'intuizione. –