2015-01-12 20 views

risposta

0

Cerca un motivo che mostra di avere un numero di pagina o un'intestazione, il piè di pagina! Per esempio, quando ho usato pdftotext per convertire un file pdf in testo mi sono reso conto che le pagine numero di stand alone nel testo così ho usato espressioni regolari per sostituirli in questo modo:

for root, dirs, files in os.walk(src, topdown=False): 
    for name in files: 
     if name.endswith('.txt'): 
      with open(os.path.join(root, name), "r") as fin: 
       data = fin.read()  
       new_text = re.sub(r'\n\d+\n\s','',data,re.DOTALL) 

Poiché ogni numero di pagina era in una linea (senza altro testo) e dopo quel numero ho avuto una nuova riga. Ho fatto lo stesso per l'intestazione e il piè di pagina del file pdf.

4

È necessario ritagliare con parametri -H -W -y -x, come minimo -H -W -y.

Esempio:

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf 


-y 80 -> crop 80 pixels after the top of file (remove header); 
-H 650 -> crop 650 pixels after the -y has cropped (remove footer); 
-W 1000 -> hight value to crop nothing (need especify something); 

È necessario regolare -y e -H ad ogni PDF, a volte riducendo -y e aumentando -H per adattarsi con l'intestazione e piè di pagina;

+0

Come contare il numero di pixel? – TatianaP