2010-09-09 5 views

risposta

27

I caratteri Hanzi/Kanji comunemente usati si trovano nel blocco "Ideogrammi unificati CJK" tra U + 4E00 e U + 9FFF e richiedono 3 byte in UTF-8. (I caratteri giapponesi Hiragana e Katakana prendono anche 3 byte.)

Tuttavia, ci sono anche alcuni caratteri usati raramente nei blocchi "CJK Unified Ideographs Extension B" e "CJK Compatibility Ideographs Supplement", che richiedono 4 byte in UTF-8.

Inoltre, tenere presente che il testo cinese contiene spesso caratteri ASCII come le cifre 0-9.

+0

+1 Wow, a quanto pare abbiamo altoparlanti cinesi su stackoverflow. Freddo :-). – sleske

+2

Anche il testo giapponese estratto da Shift-JIS contiene altri caratteri non Kanji, non ASCII che mappano a sequenze a due byte. E a breve avremo l'emoji con cui fare i conti, che sono anche al di fuori del Piano Multilingue di base e quindi 4 byte ... – bobince

+2

@sleske: No, non parlo * cinese. Ho appena finito di lavorare troppo con la codifica dei caratteri. – dan04

2

Sì, Kanji è da U + 4e00 a U + 9faf, UTF8 3 byte da U + 0800 a U + FFFF.