Rimozione di caratteri non UTF-8 da file txt di grandi dimensioni

Sto lavorando a un file di testo JSON da 1 Gigabyte che sto cercando di analizzare utilizzando Java. Tuttavia, il parser genera un'eccezione perché si corre in 'n' carattere generare questa eccezione:Rimozione di caratteri non UTF-8 da file txt di grandi dimensioni

Eccezione non valido UTF-8 Inizia byte 0x96

Ho cercato di rimuovere il carattere utilizzando sed e perl, ma sembra che non possano leggere il carattere e quindi il file rimane invariato. Mi piacerebbe rimuovere il carattere dall'intero file o sostituirlo con qualsiasi altro carattere o stringa in modo che l'analisi funzioni.

fonte

2012-06-19 user1261046

Credo che il file è codificato in latin1, non utf8 – Daenyth

Per aggiungere, utilizzare iso-8859-1 come codifica per specificare latin1 in java – jontro

Il file non è codificato in UTF-8.

Si dovrebbe trovare la codifica e utilizzare questa codifica per leggere il file utilizzando InputStreamReader. E quindi salvarlo se necessario in UTF-8 (usando per esempio un OutputStreamWriter).

Se non si conosce la codifica, suggerisco di testare con alcune codifiche probabili: vedere Charsets.

fonte

2012-06-19 16:30:09

Funziona bene ora. Grazie – user1261046

Si può non essere UTF-8 vedi qui alcune informazioni su come controllare ciò che la codifica che è: Java : How to determine the correct charset encoding of a stream

con la migliore risposta che sembra puntare verso il InputStreamReader#getEncoding()

fonte

2012-06-19 16:31:31

Rimozione di caratteri non UTF-8 da file txt di grandi dimensioni

risposta

Problemi correlati