Qualcuno sa di una libreria Java open source che farà una robusta diffusione delle parti di testo dei file pdf?Libreria Java Pdf Diff
Idealmente mi piacerebbe qualcosa che possa produrre un diff sotto forma di patch.
Qualcuno sa di una libreria Java open source che farà una robusta diffusione delle parti di testo dei file pdf?Libreria Java Pdf Diff
Idealmente mi piacerebbe qualcosa che possa produrre un diff sotto forma di patch.
Estrarre il testo pdf con http://incubator.apache.org/pdfbox/ e creare un diff con http://code.google.com/p/google-diff-match-patch.
Se i PDF sono diversi solo nel testo, è anche possibile rasterizzare le pagine e quindi osservare le differenze in questo modo: le usiamo per l'output dei test di regressione sul nostro codice PDF.
Esistono librerie o codici per rasterizzare un file PDF? Anche su rasterize, il risultato sarà sempre lo stesso in termini di hash MD5/SHA1? O dovresti differirlo con uno strumento di comparazione fuzzy come Sikuli, ecc.? – David
Appena notato che Apache PDFBox può rasterizzare il PDF in immagini per pagine. – David
Puoi dare un'occhiata a xdiffweb.com. È un puro progetto opensource java basato su apache pdfbox.
Grazie. L'app sembra essere inattiva. – mac
Forse puoi chiarire le tue aspettative. Esistono molti modi per creare due diversi PDF che appaiono esattamente uguali. Ricorda inoltre che i PDF non devono avere testo ricercabile. –