Qualcuno può confermare che tutti i caratteri Kanji in cinese sono lunghi 3 byte in UTF-8?Sono lunghi tutti i caratteri Kanji in UTF-8 3 byte?
17
A
risposta
27
I caratteri Hanzi/Kanji comunemente usati si trovano nel blocco "Ideogrammi unificati CJK" tra U + 4E00 e U + 9FFF e richiedono 3 byte in UTF-8. (I caratteri giapponesi Hiragana e Katakana prendono anche 3 byte.)
Tuttavia, ci sono anche alcuni caratteri usati raramente nei blocchi "CJK Unified Ideographs Extension B" e "CJK Compatibility Ideographs Supplement", che richiedono 4 byte in UTF-8.
Inoltre, tenere presente che il testo cinese contiene spesso caratteri ASCII come le cifre 0-9.
2
Sì, Kanji è da U + 4e00 a U + 9faf, UTF8 3 byte da U + 0800 a U + FFFF.
+1 Wow, a quanto pare abbiamo altoparlanti cinesi su stackoverflow. Freddo :-). – sleske
Anche il testo giapponese estratto da Shift-JIS contiene altri caratteri non Kanji, non ASCII che mappano a sequenze a due byte. E a breve avremo l'emoji con cui fare i conti, che sono anche al di fuori del Piano Multilingue di base e quindi 4 byte ... – bobince
@sleske: No, non parlo * cinese. Ho appena finito di lavorare troppo con la codifica dei caratteri. – dan04