2009-05-20 3 views
6

Qualcuno sa di una libreria Java open source che farà una robusta diffusione delle parti di testo dei file pdf?Libreria Java Pdf Diff

Idealmente mi piacerebbe qualcosa che possa produrre un diff sotto forma di patch.

+0

Forse puoi chiarire le tue aspettative. Esistono molti modi per creare due diversi PDF che appaiono esattamente uguali. Ricorda inoltre che i PDF non devono avere testo ricercabile. –

risposta

0

Se i PDF sono diversi solo nel testo, è anche possibile rasterizzare le pagine e quindi osservare le differenze in questo modo: le usiamo per l'output dei test di regressione sul nostro codice PDF.

+0

Esistono librerie o codici per rasterizzare un file PDF? Anche su rasterize, il risultato sarà sempre lo stesso in termini di hash MD5/SHA1? O dovresti differirlo con uno strumento di comparazione fuzzy come Sikuli, ecc.? – David

+0

Appena notato che Apache PDFBox può rasterizzare il PDF in immagini per pagine. – David

0

Puoi dare un'occhiata a xdiffweb.com. È un puro progetto opensource java basato su apache pdfbox.

+0

Grazie. L'app sembra essere inattiva. – mac