Ho un lungo file di testo che utilizza codifiche apparentemente diverse in successivi blocchi di testo (iso o utf-8). È il risultato dell'aggiunta di testo utilizzando >> file.bib
e copia e incolla da diverse fonti (pagine Web).Correzione fissa del file di testo incoerentemente codificato
I blocchi possono in linea di principio essere distinte in quanto sono bibtex
voci
@article{key, author={lastname, firstname}, ...}
vorrei convertirlo in un file coerente utf-8 dal momento che sembra mandare in crash il mio spettatore bibtex (kbibtex). So che posso usare iconv
per convertire la codifica di interi file, ma vorrei sapere se c'è un modo per correggere il mio file senza corrompere alcune delle voci.
Fornire ulteriori dettagli, vedere [Domande sulla conversione di un file con codifica mista su UTF8 in Perl] (http://stackoverflow.com/questions/6897982/questions-about-converting-a-mixed-encoding-file- to-utf8-in-perl) per un confronto quali informazioni sono utili. – daxim
Si dovrebbe iniziare dividendo il file nei singoli documenti HTML. Quindi puoi controllare ciascun documento per una distinta base e per un set di caratteri nell'elemento HEAD. – ikegami