Ciao a tutti, appena iniziato su Hadoop e curioso quello che il modo migliore di MapReduce sarebbe quello di contare i visitatori unici, se i tuoi file di log si presentava così ...Qual è il modo migliore per contare i visitatori unici con Hadoop?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
e per ogni sito si voleva scoprire la visitatori unici per ogni sito?
Stavo pensando che il mapper emetterebbe siteID \ t nome utente e il riduttore manterrebbe un set() degli unici nomi utente per chiave e quindi emetterà la lunghezza di quel set. Tuttavia, ciò potrebbe potenzialmente memorizzare milioni di nomi utente in memoria che non sembrano giusti. Qualcuno ha un modo migliore?
che sto utilizzando lo streaming di pitone per la via
grazie