Sono davvero confuso su come calcolare la precisione e il richiamo nelle applicazioni di clustering.Come calcolare precisione e richiamo in clustering?
Ho la seguente situazione:
Dati due insiemi A e B. Utilizzando una chiave univoca per ciascun elemento è possibile determinare quale degli elementi di A e B partita. Voglio raggruppare questi elementi in base alle caratteristiche (non utilizzando ovviamente la chiave univoca).
Sto facendo il clustering ma non sono sicuro di come calcolare la precisione e il richiamo. Le formule, secondo la carta "grafici delle prestazioni estese per Cluster Retrieval" (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) sono:
p = precisione = rilevanti articoli recuperati/articoli recuperati e r = richiamo = rilevanti articoli recuperati/elementi rilevanti
Davvero non capisco quali elementi rientrano in quale categoria.
Quello che ho fatto fino ad ora è, ho controllato all'interno dei cluster quante coppie di corrispondenza ho (usando la chiave univoca). È già uno di precisione o richiamo? E se sì, quale è e come posso calcolare l'altro?
Aggiornamento: ho appena trovato un altro foglio con il titolo "F-Measure for Evaluation of Clustering non presidiato con numero di cluster non determinati" al numero http://mtg.upf.edu/files/publications/unsuperf.pdf.
è possibile controllare questa domanda troppo? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG