2012-12-18 10 views
5

Sarebbe possibile derivare il testo, le immagini e le equazioni di LaTeX da un sito Web particolare in modo che sia possibile personalizzare direttamente il proprio PDF senza avere gli oggetti sfocati? Solo l'immagine avrà una risoluzione fissa.Deriva testo, immagini e equazioni LaTeX dai siti web

Mi rendo conto che ci sono un paio di modi per generare un PDF indirettamente. Tentare di eseguire il rendering di un PDF da Wolfram MathWorld su Riemann Zeta Function, ad esempio, sarebbe possibile stampandolo e salvandolo come PDF tramite Chrome, ma man mano che si ingrandisce più da vicino, le equazioni e il testo di LaTeX diventano naturalmente sfocati. Ho provato a scaricare "Wolfram's CDF Player", ma contiene solo la sintassi per le librerie di Mathematica - non le utili spiegazioni fornite da Wolfram MathWorld. Cosa mi sarebbe richiesto per estrarre il testo, le immagini e le equazioni di LaTeX in un file PDF senza averle sfocate?

+0

Si potrebbe provare la tua domanda qui http://mathematica.stackexchange.com –

risposta

1

A meno che non si abbia accesso alla sorgente LaTeX che è stata utilizzata per produrre le immagini in un modo non evidente dalla domanda, la risposta è "non è possibile". L'ispezione casuale del sito Web collegato implica che il LaTeX utilizzato per produrre le equazioni non sia prontamente disponibile (probabilmente è su un sistema di backend che produce le immagini che vengono messe sul server web).

Per un browser, è solo un'immagine. Il metodo con cui è stata prodotta l'immagine è irrilevante per il modo in cui appare sulla pagina web e come apparirà in un PDF (cioè più pixelato di quanto desiderato).

Si noti che se un sito Web utilizza un formato di grafica vettoriale come SVG invece di un formato basato su pixel come PNG o JPEG, questi verranno convertiti in PDF in modo pulito e verranno ingranditi correttamente. Questa è una scelta che verrebbe fatta dal webmaster del sito in questione.

1

L'ispezione della fonte rivela che i gif che raffigurano ogni equazione hanno un testo alternativo che approssima il LaTeX che li renderà (potrebbe essere il codice Mathematica - non ho familiarità con gli strumenti di Wolfram). Estrarre una fonte ragionevole non sarebbe impossibile, ma sarebbe difficile. Il sito è strutturato con tabelle, quindi anche con qualcosa come beautiful soup l'analisi dell'HTML potrebbe essere complicato. Alcune equazioni sono suddivise in diverse gif, quindi analizzarle sarebbe ancora più complicato. Dovresti anche convertire da qualunque testo alternativo a LaTeX.

Nel complesso, se non è necessario eseguire una zillion di pagine, suggerirei di copiare il testo, salvare le immagini, afferrare il testo alternativo di ogni immagine e eseguire la conversione.

0

Per l'esempio fornito, è possibile scaricare il blocco note Mathematica per quella pagina. Forse è possibile analizzare qualcosa da quello.