Penso che a molte persone qui manca la semplicità della domanda. Non ha detto nulla sulla creazione di un sistema di previsione del rating. Vuole solo calcolare la somiglianza tra il comportamento di classificazione dei brani di ciascun utente e il comportamento di valutazione dei brani di ciascun altro utente. Il coefficiente di correlazione di Pearson dà esattamente questo. Sì, è necessario scorrere su ogni coppia utente/utente.
EDIT:
Dopo pensando a questo un po 'di più:
Pearson è grande se si desidera che la somiglianza tra i gusti dei due utenti, ma non il loro livello di 'opinionatedness' ... un utente che valuta una serie di brani 4, 5 e 6 che si correlano perfettamente con un altro utente che valuta le stesse canzoni 3, 6 e 9. In altre parole, hanno lo stesso "gusto" (classificano le canzoni nello stesso ordine), ma il secondo utente è molto più supponente. In altre parole, il coefficiente di correlazione considera ogni due vettori di valutazione con una relazione lineare uguale.
Tuttavia, se si desidera la somiglianza tra le valutazioni effettive fornite dagli utenti a ciascuna canzone, è necessario utilizzare l'errore quadratico medio quadratico tra i due vettori di valutazione. Questa è una metrica basata esclusivamente sulla distanza (le relazioni lineari non giocano nel punteggio di similarità), quindi gli utenti di 4,5,6 e 3,6,9 non avrebbero un punteggio di similarità perfetto.
La decisione si riduce a ciò che si intende per "simile" ...
Questo è tutto.
fonte
2009-12-02 23:14:54
Dai un'occhiata a quali algoritmi sono stati utilizzati nelle voci per Netflix Prize http://www.netflixprize.com/ – jfs