Ho un file di testo enorme della formascoperta significa usare maiale o di Hadoop
dati vengono salvati nei dati di directory/data1.txt, data2.txt e così via
merchant_id, user_id, amount
1234, 9123, 299.2
1233, 9199, 203.2
1234, 0124, 230
and so on..
Quello che voglio fare è per ogni commerciante, trova l'importo medio ..
quindi fondamentalmente alla fine voglio salvare l'output nel file. qualcosa come
merchant_id, average_amount
1234, avg_amt_1234 a
and so on.
Come faccio a calcolare la deviazione standard come bene?
Ci scusiamo per la domanda di base. :( Qualsiasi aiuto sarebbe apprezzato. :)
Una buona risposta a questa domanda dovrebbe riguardare le nozioni di base di hadoop e gli algoritmi necessari per calcolare le varie metriche.Vorrei ri-modificare questa domanda, o forse chiedere ad un altro e affermare in anticipo ciò che sai su come risolvere questo problema con hadoop o maiale ed essere più specifico riguardo all'unica cosa che ti sta trattenendo. –