Beh, la verità è: UTF-24 è stata suggerita nel 2007:
http://unicode.org/mail-arch/unicode-ml/y2007-m01/0057.html
I pro menzionati & contro essendo:
"UTF-24
Advantages:
1. Fixed length code units.
2. Encoding format is easily detectable for any content, even if mislabeled.
3. Byte order can be reliably detected without the use of BOM, even for single-code-unit data.
4. If octets are dropped/inserted, decoder can resync at next valid code unit.
5. Practical for both internal processing and storage/interchange.
6. Conversion to code point scalar values is more trivial then for UTF-16 surrogate pairs
and UTF-7/8 multibyte sequences.
7. 7-bit transparent version can be easily derived.
8. Most compact for texts in archaic scripts.
Disadvantages:
1. Takes more space then UTF-8/16, except for texts in archaic scripts.
2. Comparing to UTF-32, extra bitwise operations required to convert to code point scalar values.
3. Incompatible with many legacy text-processing tools and protocols. "
Come sottolineato da David Starner in http://www.mail-archive.com/[email protected]/msg16011.html:
Perché? UTF-24 sarà quasi invariabilmente più grande di UTF-16, a meno che non si parli di un documento in Old Italic o Gothic. I caratteri matematici alfanumerici saranno quasi sempre combinati con un numero sufficiente di ASCII per rendere UTF-8 una vittoria, e se non, abbastanza caratteri BMP per rendere UTF-16 una vittoria. I computer moderni non si occupano bene di blocchi a 24 bit; in memoria, erano occupano 32 bit a pezzo, a meno che non li avessi dichiarati imballati, e quindi sarebbero molto più lenti di UTF-16 o UTF-32. E se stai salvando sul disco , puoi usare anche BOCU o SCSU (stai già andando non standard), o usa la compressione standard con UTF-8, UTF-16, BOCU o SCSU. SCSU o BOCU compressi dovrebbero occupare metà dello spazio di UTF-24, in questo caso.
Si potrebbe anche verificare il seguente post StackOverflow:
Why UTF-32 exists whereas only 21 bits are necessary to encode every character?
fonte
2012-04-13 15:36:54
La semplice ragione è perché non c'è un 24 struttura. C'è 16, 32, 8, 2 quindi 24 sarebbe dispari. Inoltre, i blocchi di memoria sono normalmente suddivisi in blocchi di 2^x .... La stessa ragione per cui computere non è venuto con 24 MB o HDD non sono pubblicizzati con 24 GB anziché 16 GB e 32 GB. –