2016-03-29 32 views

risposta

15

Le citazioni sono da quanto sopra menzionati Zisserman paper - 4.2 Evaluation of Results (Page 11):

Prima un "criterio di sovrapposizione" è definito come un incrocio-over-union superiore a 0,5. (ad esempio, se un riquadro previsto soddisfa questo criterio rispetto a un riquadro di verità terreno, è considerato un rilevamento). Poi una corrispondente viene fatta tra le scatole GT e le scatole previsti utilizzando questo approccio "greedy":

uscita rilevati mediante un metodo sono stati assegnati a oggetti verità a terra soddisfare il criterio di sovrapposizione al fine classificati dalla (diminuzione) uscita confidenziale. Rilevazioni multiple dello stesso oggetto in un'immagine sono state considerate false rilevazioni, ad es. 5 rilevazioni di un singolo oggetto contato come 1 corretta rilevazione e 4 falsi rilevamenti

Quindi ogni predetto area True-Positive o False-Positive. Ciascuna casella di verità della terra è Vero-Positiva o Falsa-Negativa. Non ci sono veri negativi.

Quindi la precisione media viene calcolata calcolando la media dei valori di precisione sulla curva di richiamo di precisione in cui il richiamo è nell'intervallo [0, 0,1, ..., 1] (ad esempio la media di 11 valori di precisione). Per essere più precisi, consideriamo una curva PR leggermente corretta, dove per ogni punto di curva (p, r), se c'è un punto di curva diverso (p ', r') tale che p '> p e r'> = r , sostituiamo p con il massimo p 'di quei punti.

Ciò che non è ancora chiaro per me è ciò che viene fatto con quelle scatole GT che sono mai rilevate (anche se la confidenza è 0). Ciò significa che ci sono alcuni valori di richiamo che la curva di richiamo di precisione non raggiungerà mai, e questo rende il calcolo della precisione media sopra non definito.

Edit:

Risposta breve: nella regione in cui il richiamo non è raggiungibile, la precisione scende a 0.

Un modo per spiegare questo è di assumere che, quando la soglia per gli approcci di fiducia 0, un numero infinito di previsto caselle di delimitazione si illuminano su tutta l'immagine. La precisione passa immediatamente a 0 (poiché c'è solo un numero finito di box GT) e il richiamo continua a crescere su questa curva piatta fino a raggiungere il 100%.

+0

Questo non è l'unica cosa che non è chiara. Si consideri un caso in cui ci sono due caselle di caselle previste (P1, P2) e due verità di base (T1, T2), dove P2 ha una maggiore confidenza di P1. Sia P1 che P2 si sovrappongono a T1. Dal momento che P2 ha la fiducia più alta, è chiaro che P2 dovrebbe essere considerato la partita per T1. Ciò che non viene dato è che se P1 ha anche qualche IOU sovrapposto a T2, ma inferiore a IOU con T1, P1 dovrebbe avere una "seconda possibilità" di provare ad abbinarsi a T2, o non dovrebbe? – Martin

+0

Qualcuno può chiarire il problema con le caselle GT non rilevate? – Jonathan

+0

@ Jonathan: così scartiamo semplicemente le previsioni con IoU <0.5 e calcoliamo l'area sotto la curva PR per le previsioni con IoU> = 0.5? – Alex

23

mAP è la media della precisione media.

L'utilizzo è diverso nel campo del recupero informazioni (riferimento [1][2]) e di classificazione multi-classe (rilevamento oggetto).

Per calcolarlo per il rilevamento oggetto, si calcola la precisione media per ogni classe nei dati in base alle previsioni del modello. La precisione media è correlata all'area sotto la curva di richiamo di precisione per una classe. Quindi, prendere la media di questi valori medi di precisione individuale ti dà la media della precisione media.

Per calcolare media di precisione, vedere [3]

4

Penso che la parte importante qui sia collegare il modo in cui il rilevamento dell'oggetto può essere considerato lo stesso dei problemi standard di recupero delle informazioni per i quali esiste almeno uno excellent description of average precision.

L'output di un algoritmo di rilevamento di oggetti è un insieme di caselle di delimitazione proposte e, per ciascuna di esse, un punteggio di confidenza e classificazione (un punteggio per classe). Ignoriamo i punteggi di classificazione per ora e usiamo la sicurezza come input per un threshold binary classification. Intuitivamente, la precisione media è un'aggregazione su tutte le scelte per il valore soglia/soglia. Ma aspetta; per calcolare la precisione, dobbiamo sapere se una scatola è corretta!

Qui è dove si confonde/difficile; al contrario dei tipici problemi di recupero delle informazioni, in realtà abbiamo un ulteriore livello di classificazione qui. Cioè, non possiamo fare una corrispondenza esatta tra le caselle, quindi dobbiamo classificare se un riquadro di delimitazione è corretto o meno. La soluzione è essenzialmente fare una classificazione hard-coded sulle dimensioni della scatola; controlliamo se si sovrappone a sufficienza con qualsiasi verità di base per essere considerato 'corretto'. La soglia per questa parte è scelta dal buon senso. Il set di dati su cui stai lavorando probabilmente definirà cosa è questa soglia per un bounding box 'corretto'. La maggior parte dei set di dati lo imposta su 0.5 IoU e lo lascia (consiglio di fare alcuni calcoli IoU manuali [non sono difficili] per avere un'idea di quanto sia effettivamente rigoroso IoU di 0,5).

Ora che abbiamo effettivamente definito cosa significa "corretto", possiamo semplicemente utilizzare lo stesso processo del recupero delle informazioni.

Per trovare la precisione media media (mAP), basta stratificare le caselle proposte in base al massimo dei punteggi di classificazione associati a tali riquadri, quindi media (prendere la media) della precisione media (AP) sulle classi.

TLDR; fare la distinzione tra determinare se una predizione del riquadro di delimitazione è 'corretta' (livello extra di classificazione) e valutare quanto bene la sicurezza del riquadro ti informa di una predizione del riquadro 'corretta' (completamente analoga al caso di recupero di informazioni) e le descrizioni tipiche di mAP avrà senso.


Vale la pena notare che Area under the Precision/Recall curve is the same thing as average precision, e ci sono essenzialmente approssimando quest'area con l'trapezoidale o regola della mano destra per approssimare integrali.

7

Per il rilevamento, un modo comune per determinare se una proposta oggetto era destra è Intersezione sopra Unione (IOU, IU). Questo richiede l'insieme A di pixel dell'oggetto proposti e l'insieme di pixel dell'oggetto veri B e calcola:

IoU(A, B) = \frac{A \cap B}{A \cup B} 

Comunemente, IOU> 0,5 significa che è stato un successo, altrimenti era un sicuro.Per ogni classe, si può calcolare il

  • vero positivo TP (c): la proposta è stata fatta per la classe C e c'è in realtà era un oggetto di classe C
  • falso positivo FP (c): la proposta è stata fatta per la classe C, ma non c'è un oggetto di classe C
  • di precisione media per la classe C: \ frac {#TP (c) {} # TP (c) + #FP (c)}

Il mAP (media precisione media) è quindi:

mAP = \frac{1}{|classes|}\sum_{c \in classes} \frac{\#TP(c)}{\#TP(c) + \#FP(c)} 

Nota: Se uno vuole proposte migliori, uno non aumentare l'IOU da 0,5 a un valore più alto (fino a 1,0 che sarebbe perfetto). Si può denotare questo con mAP @ p, dove p \ in (0, 1) è IoU.

[email protected][.5:.95] significa che la mappa è calcolata su diverse soglie e poi di nuovo di essere in media

Edit: Per informazioni più dettagliate consultare il COCO Evaluation metrics