risposta

8

Questo è un problema aperto nel riconoscimento di immagini. Oltre alle finestre scorrevoli, gli approcci esistenti includono la previsione della posizione dell'oggetto nell'immagine come uscita CNN, la previsione dei bordi (classificando i pixel come appartenenti al limite dell'immagine o meno) e così via. Vedi ad esempio this paper e riferimenti in esso.

Si noti inoltre che con la CNN che utilizza il max-pooling, è possibile identificare le posizioni dei rilevatori di caratteristiche che hanno contribuito al riconoscimento dell'oggetto e utilizzarlo per suggerire la possibile regione di posizione dell'oggetto.

+0

Grazie per la risposta! –

2

Ci sono alcune tecniche recenti per localizzare gli oggetti in CNN. Vedere questo documento http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf

Esso utilizza uno strato denominato Global Average Pooling (GAP) e senza alcun lavoro aggiuntivo, la CNN può localizzare l'oggetto che riconosce.

checkout Anche questo veramente buono post del blog: https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/