Per il layout abbiamo il nostro famoso testo "Lorem ipsum" per testare l'aspetto.Esiste un set di file "Lorem ipsums" per testare i problemi di codifica dei caratteri?
Quello che sto cercando è un insieme di file contenenti testo codificato con diverse codifiche che posso utilizzare nei miei test JUnit per testare alcuni metodi che si occupano della codifica dei caratteri durante la lettura di file di testo.
Esempio:Avere un ISO 8859-1
codificato test-file e un test-file codificato Windows-1252
. Windows-1252 deve attivare le differenze nella regione 80 - 9F . In altre parole, deve contenere almeno un carattere di questa regione per distinguerlo dall'ISO 8859-1.
Forse il miglior set di file di test è quello in cui il file di test per ogni codifica contiene tutti i suoi caratteri una volta. Ma forse non sono a conoscenza di sth - a tutti noi piace questa roba di codifica, giusto? :-)
Esiste un insieme di file di test per problemi di codifica dei caratteri?
+1: ho appena trascorso un po 'di tempo implementando un Decodificatore UTF-8. Gestire tutte le casse d'angolo richiede più test unitari di quanto si possa pensare. – Raedwald
"Testo codificato con diverse codifiche diverse": per una buona copertura si desidera anche sequenze di byte campione contenenti byte non validi. Secondo la pagina di Wikipedia su UTF-8, l'errata gestione di questi casi ha introdotto vulnerabilità di sicurezza in alcuni prodotti di alto profilo. – Raedwald
@Raedwald Ovviamente, questo è un buon punto. Non ero a conoscenza di questo. A mio parere, un motivo in più per una suite di test matura per problemi di codifica. Non deve essere un insieme di file. Può anche essere una libreria che fornisce dati di test che possono essere utilizzati nei test JUnit. Ad esempio, può fornire sequenze di byte critiche/non valide per set di caratteri comuni e stringhe di riferimento per il confronto dopo la decodifica di sequenze di byte di esempio. Solo alcuni pensieri e mi chiedo come questa roba di codifica sia stata testata in tutte le librerie ... –