Esistono librerie open source che supportano l'estrazione della tabella &?Estrai/Identifica tabelle da PDF python
Con questo intendo:
- Identificare una struttura tabella esiste
- adesso la tabella dal suo contenuto
- Estrarre dati della tabella in un formato di output utile ad esempio JSON/CSV ecc
Ho osservato con domande simili su questo argomento e ha trovato il seguente:
- PDFMiner che affronta problema 3, ma sembra che l'utente è tenuto a specificare di PDFMiner in cui un esiste una struttura tabella per ogni tabella (correggimi se ho torto)
- pdf-table-extract che tenta di risolvere il problema 1 ma secondo l'elenco To-Do, al momento non è possibile identificare le tabelle che sono separate da spazi vuoti. Questo è un problema poiché tutte le tabelle nei miei PDF sono separate da spazi bianchi!
Attualmente, sto pensando che avrei dovuto dedicare molto tempo allo sviluppo di una soluzione di Machine Learning per identificare strutture di tabelle da PDF. Pertanto, qualsiasi approccio alternativo sarebbe più che benvenuto!
Se è possibile utilizzare anche strumenti oltre a python, si consiglia di dare un'occhiata a [tabula] (http://tabula.technology/). – mkl
grazie. Lo esamineremo sicuramente. Sono ansioso di trovare una soluzione in Python grazie alla velocità con cui python può essere scritto –