2009-01-21 11 views
17

Sto lavorando a un portale online, in cui i ricercatori possono caricare i loro documenti di ricerca. Un requisito è che tutti i PDF siano archiviati in formato PDF/A. Poiché non posso fare affidamento sugli utenti per generare documenti conformi a PDF/A, ho bisogno di uno strumento per verificare e convertire PDF standard in formato PDF/A.Converti in PDF/A e verifica la conformità con Linux

Qual è lo strumento migliore che conosci?

  • Prezzo
  • qualità
  • velocità
  • API disponibili

strumenti open-source sarebbe preferito, ma una ricerca ha rivelato nessuno. iText può creare PDF/a, ma la conversione non è facile, poiché devi leggere ogni pagina e copiarla su un nuovo documento, perdendo tutti i segnalibri e le annotazioni in questo processo. (Almeno per quanto ne so, se sai di una soluzione facile, fammi sapere).

Le API devono essere disponibili per PHP, Java o uno strumento da riga di comando. Si prega di non elencare le soluzioni solo GUI o solo online.

risposta

8

Non sono sicuro che tutti i tuoi obiettivi possano essere soddisfatti allo stesso tempo. La storia di PDF/A è molto più complessa delle conversioni di formato come tiff to png.

  • Il formato di base è PDF 1.4: cosa fare con documenti con versione più alta che utilizzano funzionalità di quelle versioni superiori? Le informazioni potrebbero essere perse.
  • In entrambi i PDF/A-1a e 1b, i metadati in formato XMP/RDF sono obbligatori. Se il documento originale è privo di metadati, dovrai scaricarlo da in un punto e aggiungerlo. Almeno iText può farlo.
  • Ci sono molti piccoli dettagli da correggere, dall'incorporazione di caratteri per assicurarsi che siano presenti spazi invece di soli comandi di movimento orizzontale.

Per riassumere: ritengo che sia meglio affidare alcune o tutte le responsabilità per la conformità con i produttori dei PDF. Naturalmente, ciò non significa che non puoi aiutarli: se trovi gli strumenti che la maggior parte usa per creare i loro documenti, puoi fare riferimento alla documentazione su PDF/A e agli strumenti specifici. (come un esempio estremo di tale documentazione, date un'occhiata a this)

Buona fortuna per i vostri sforzi.

+0

il collegamento sembra essere rotto – castle1971

+0

Grazie, ho riparato il collegamento. –

1

Il Open Office API project potrebbe essere quello che cercate. A partire da 2.4 Open Office supporta PDF/a documenti. Ecco un code example dal sito Web su come convertire i documenti, questo esempio è in Java.

8

Ero solito lavorare per la Biblioteca nazionale francese, per costruire un sistema di archiviazione che facesse questo genere di cose. Come la maggior parte delle dieci migliori librerie del mondo, abbiamo usato JHOVE per riconoscere i formati di file.

JHOVE può dire se i file sono in formato PDF/A o meno, e può anche validate loro. Conosce anche altri 7 tipi di PDF, vedi the details.

JHOVE è open source, è gestito da JSTOR e dalla biblioteca dell'Università di Harvard. È piuttosto semplice per use.