7

Quindi ci sono molte opzioni su come è possibile estrarre le funzionalità di HoG. Utilizzo di diversi orientamenti, numeri diversi di pixel per cella e dimensioni dei blocchi differenti.Numero ideale di funzioni HoG

Ma esiste una configurazione standard o ottimale? Ho immagini di allenamento della dimensione 50x100 e sto optando per 8 direzioni di orientamento. Sto estraendo le caratteristiche dai dati di allenamento per fare la classificazione dei veicoli. Ma davvero non so cosa sia "ottimale".

Ad esempio, ho 2 configurazioni qui, c'è qualche motivo per scegliere l'una rispetto all'altra? Personalmente mi sento come se la seconda fosse una scelta migliore, ma perché?

enter image description here

enter image description here

risposta

7

ho usato HOG per il riconoscimento del prodotto. Da quello che ho capito al momento, stai indicando un vero problema dello HOG standard. Semplicemente non esiste una configurazione ottimale, dipende dal set di dati. Se si dispone dei valori ottimali per il set di dati, quindi si ridimensionano tutte le immagini del set di dati, è necessario ridimensionare anche i valori. Pertanto, per HOG non esistono valori ottimali per "taglia unica".

Ma non tutto è perduto. Quello che dovresti fare invece è un metodo che funziona "tutto il tempo". L'idea è di fare Spatial Pyramid Matching. Questo è solo fare HOG a varie scale e combinarle insieme. Un'immagine essere vale più di mille parole:

From the article

Si può vedere che qui, il livello 2 è solo l'HOG serie con cellule sottili. Ma forse non è la scala migliore (perché le celle sono troppo piccole e si osserva solo il rumore) (D'altra parte, le celle troppo grandi, come il livello 0, potrebbero essere troppo grandi, e si avranno istogrammi uniformi ovunque). Puoi calcolare i pesi migliori per ogni livello quando esegui l'allenamento sul set di dati e saprai quali sono i valori ottimali, ovvero: qual è la dimensione della cella più pertinente

+0

Ma per una persona che ha un'esperienza con le funzionalità HoG , sei anche d'accordo sul fatto che l'immagine in basso che ho messo su è una scala HoG migliore rispetto all'immagine in alto? – user961627

+0

Per esperienza personale, se l'immagine non è molto piccola, 8x8 pixel per cella è spesso la buona configurazione. E 9 orientamento - variante UoCTTI. P. F. Felzenszwalb, R. B. Grishick, D. McAllester e D. Ramanan. Rilevamento di oggetti con modelli basati su parti discriminate. PAMI, 2009. –

+0

cosa intendi per "molto piccolo". Immagino che le immagini 50x100 si qualifichino come non molto piccole? – user961627