2013-05-10 30 views
5

Voglio leggere i dati IRStatisticsImpl ma hanno alcuni problemi:come interpretare i dati IRStatisticsImpl in mahout

il mio risultato è:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

lo fa significava, che ho ottenuto solo il 4% delle buone raccomandazioni (precisione) e circa lo stesso livello di cattiva raccomandazione (richiamo)?

come dovrebbero apparire i numeri al meglio: precisione a 1.0 e richiamo a 0.0?

risposta

2

Beh, per definizione:

precisione rappresenta quanti risultati sono corretti nel vostro set di risultati. Il richiamo rappresenta la probabilità che un elemento corretto in un set di test debba essere selezionato come corretto e selezionato in un set di risultati.

perfetti Precisione e richiamo devono essere entrambi al 100%. Buoni risultati e criteri su questi valori devono essere valutati in base al tuo dominio.

Ad esempio, se si dispone di un secchio con funghi buoni e cattivi, è necessario puntare al 100% per la precisione, indipendentemente dal livello di richiamo. Poiché la precisione è fondamentale per la tua salute, puoi anche lasciare molti buoni funghi. La cosa importante è non mangiare i brutti. Potresti scegliere un buon fungo e ottenere così il 100% di precisione, ma se nel tuo secchio c'erano quattro buoni funghi, il tuo richiamo è del 25%. Idealmente se precisione e richiamo sono al 100% significa che nel tuo set di risultati tutti i tuoi funghi sono buoni e anche tutti i funghi buoni sono nel tuo set di risultati e nessuno viene lasciato nel set di test.

Quindi i valori possono avere significati diversi.

Purtroppo i tuoi risultati sembrano molto brutti, perché hai molti falsi positivi e troppi falsi negativi.

Dai uno sguardo allo here.

+0

potresti dirmi, come dovrebbero apparire i numeri di "fallOut' e' nDCG'? devono essere 1.0 o 0.0? – ulkas

+0

per definizione fallOut è "La percentuale di documenti non rilevanti che vengono recuperati, tra tutti i documenti non rilevanti disponibili:" http://en.wikipedia.org/wiki/Information_retrieval#Fall-out Per quanto ne so, dovrebbe essere il più basso possibile, ma è anche banale ottenere lo 0% in modo da poter valutare il tuo dominio. – gpicchiarelli

+0

su nDCG, è una versione normalizzata di DCG che significa "Sconto cumulativo cumulativo". Per essere precisi, dai un'occhiata qui http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli