Se nessun parametro charset viene specificato nell'intestazione Content-Type, RFC2616 section 3.7.1 sembra implicare ISO8859-1 deve essere assunto per i tipi di media di sottotipo "testo":Per risposte HTTP con tipi di contenuto che suggeriscono dati di carattere, quale set di caratteri deve essere assunto dal client se non viene specificato nessuno?
Quando nessun parametro esplicito charset è fornito dal mittente, i sottotipi di supporti del tipo "testo" sono definiti per avere un valore di charset predefinito di "ISO-8859-1" se ricevuto tramite HTTP.
dati in set di caratteri diversi "ISO-8859-1" o dei suoi sottoinsiemi DEVE essere etichettati con un valore charset appropriato.
Tuttavia, ho regolarmente vedere le applicazioni che servono i file JavaScript con valori Content-Type come "application/x-javascript" (vale a dire senza charset param), anche quando questi script contengono non-ASCII caratteri UTF-8, che sarebbe corrotto se interpretato come ISO8859-1.
Questo non sembra porre problemi ai clienti. Come sanno i client interpretare i byte come UTF-8? Esiste una regola per altri sottotipi di dati carattere che implica che UTF-8 dovrebbe essere l'impostazione predefinita? Dove è documentato?
Accetto - quindi la domanda è: esiste una regola per i sottotipi di dati carattere diversi da "testo"? Se sì, dove è documentato? – rewbs
Non esiste una regola generale, in quanto il tipo di supporto potrebbe non essere basato sui caratteri in primo luogo ... –
La domanda riguarda specificamente quei tipi di file multimediali che suggeriscono i dati dei caratteri. Se non esiste una regola generale, esistono regole specifiche per diversi tipi di media? Dove sono documentati? Ci devono essere almeno * alcune * regole, dato che i clienti devono prendere una decisione su come interpretare i byte. – rewbs