Sto lavorando a un file di testo JSON da 1 Gigabyte che sto cercando di analizzare utilizzando Java. Tuttavia, il parser genera un'eccezione perché si corre in 'n' carattere generare questa eccezione:Rimozione di caratteri non UTF-8 da file txt di grandi dimensioni
Eccezione non valido UTF-8 Inizia byte 0x96
Ho cercato di rimuovere il carattere utilizzando sed e perl, ma sembra che non possano leggere il carattere e quindi il file rimane invariato. Mi piacerebbe rimuovere il carattere dall'intero file o sostituirlo con qualsiasi altro carattere o stringa in modo che l'analisi funzioni.
Credo che il file è codificato in latin1, non utf8 – Daenyth
Per aggiungere, utilizzare iso-8859-1 come codifica per specificare latin1 in java – jontro