Sto cercando un metodo di classificazione delle pagine scansionate che consistono in gran parte di testo.classificazione Immagine in python
Qui sono i particolari del mio problema. Ho una vasta collezione di documenti scansionati e ho bisogno di rilevare la presenza di determinati tipi di pagine all'interno di questi documenti. Ho intenzione di "scoppiare" i documenti nelle loro pagine componenti (ognuna delle quali è un'immagine individuale) e classificare ciascuna di queste immagini come "A" o "B". Ma non riesco a capire il modo migliore per farlo.
Maggiori dettagli:
- mi hanno numerosi esempi di "A" e "B" le immagini (pagine), quindi posso fare apprendimento supervisionato.
- Non è chiaro a me come a migliori caratteristiche estrarre da queste immagini per la formazione. Per esempio. Quali sono queste caratteristiche?
- Le pagine vengono occasionalmente leggermente ruotate, quindi sarebbe bello se la classificazione fosse alquanto insensibile alla rotazione e (in misura minore) al ridimensionamento.
- Vorrei una soluzione cross-platform, in posizione ideale nel puro pitone o utilizzando librerie comuni.
- ho pensato di usare OpenCV, ma questa sembra una soluzione di "peso".
EDIT:
- La "A" e "B" pagine differire dal fatto che le pagine "B" hanno forme su di loro con la stessa struttura generale, compresa la presenza di un codice a barre. Le pagine "A" sono testo libero.
In cosa differiscono? Font? Dimensione? Potresti OCR una parte di esso (un titolo o autore in un colpo di testa?) –
Nick, ho aggiunto una modifica per chiarire su questo. In realtà, il mio obiettivo è gettare via tutto * dopo * le pagine B perché non devo registrarle. Quindi, ho davvero bisogno di rilevarli prima di fare qualsiasi OCR. – Kyle
Questo è un bel problema difficile - a meno che la vostra collezione è davvero eccezionale, non sarebbe più facile solo per categorizzare manualmente le pagine come 'A' o' B'? Potresti scrivere una piccola app GUI per visualizzarli a turno in modo da poter semplicemente premere un tasto per pagina. – katrielalex