Sto cercando di implementare un sistema di conteggio delle persone utilizzando la visione artificiale per il progetto uni. Attualmente, il metodo è:Come gestire l'occlusione e la frammentazione
- sottrazione Sfondo utilizzando MOG2
- filtro morfologico per rimuovere il rumore
- blob cingolati
- conte blob passando una regione determinata (linea)
Il problema è se le persone vengono come gruppo, il mio metodo conta solo una persona. Dalle mie letture, credo che questo sia ciò che viene chiamato come occlusione. Un altro problema è quando le persone sembrano simili allo sfondo (usano vestiti scuri e passano un pilastro/muro nero), il blob viene separato mentre è in realtà una persona.
Da quello che ho letto, dovrei implementare un rilevatore + tracker (per esempio rilevare l'uomo usando HOG). Ma il mio risultato di rilevamento è scarso (ad esempio il 50% di falsi positivi con il 50% di hit rate, utilizzando il rivelatore umano OpenCV e il mio rilevatore esperto) quindi non sono convinto di usare il rilevatore come base per il tracciamento. Grazie per le tue risposte e il tempo per leggere questo post!
Vedo, quindi quello di cui ho bisogno è di migliorare e modificare il mio rilevatore, dal rivelatore umano completo al rivelatore umano basato su parti. Ne leggerò di più, perché ho più familiarità con il rilevamento, usando HOG, LBP, Latent SVM piuttosto che più telecamere. Grazie Nallath! – bonchenko
È un po 'come il cosiddetto modello "Borsa delle parole". – Nallath