字符编码术语中,码位或称编码位置[1],即英文的code point或code position,是组成码空间(或代码页)的数值[2]。 例如,ASCII码包含128个码位,范围是016进制到7F16进制扩展ASCII码包含256个码位,范围是016进制到FF16进制,而Unicode包含1,114,112个码位,范围是016进制到10FFFF16进制。Unicode码空间划分为17个Unicode字符平面基本多文种平面,16个辅助平面),每个平面有65,536(= 216)个码位。因此Unicode码空间总计是17 × 65,536 = 1,114,112.

定义

编辑

码位的抽象意涵, 不同于下列概念:

  • 作为具体编码的比特流。例如,UTF-16编码的比特流,既可以是大尾序,也可以是小尾序。
  • 具有特定字形的字符. 因为字符集中的字符(码位)的具体外观随字型(font)——字体显示样式——的不同而变化。
  • 特定码空间的编码方式。例如,一个Unicode码空间的码位,可以用UTF-8编码;也可以用UTF-16编码。
  • 用不同字形显示一个字符,即字位.

参考

编辑
  1. ^ GB 18030-2005《信息技术 中文编码字符集》中,既使用了码位,也用了编码位置。
  2. ^ Glossary of Unicode Terms. [2012-03-12]. (原始内容存档于2015-12-26). 

📚 Artikel Terkait di Wikipedia

UTF-32

(PDF)存档于2015-01-04).  any UCS code point except high-surrogate and low-surrogate code points". Mapping code points to Unicode encoding forms (页面存档备份,存于互联网档案馆)

UTF-16

10646-1的附錄C,而RFC2781也定義了相似的做法。 Unicode的编码空间从U+0000到U+10FFFF,共有1,112,064个码位(code point)可用来映射字符。Unicode的编码空间可以划分为17个平面(plane),每个平面包含216(65,536)个码位。17个平面的码位可表示为从U+xx0

字符编码

。编码空间还可以用其子集来表述,如行、列、面(plane)等。编码空间中的一个位置(position)称为码位(code point)。一个字符所占用的码位称为码位值(code point value)。1个编码字符集就是把抽象字符映射为码位值。 字符编码表(CEF:Character Encoding

C0与C1控制字符

character, although the code chart still lists BELL as the ISO 6429 alias, and the corresponding control picture code point is called SYMBOL FOR BELL

连字号

,HTML:・,半形片假名中間點,Unicode屬性為「連字號」 以下 Unicode 字元名義上是連字號,但沒有連字號之屬性: U+1400 ᐀ CANADIAN SYLLABICS HYPHEN ,HTML:᐀,加拿大土著音節文字連字號 U+2027 ‧ HYPHENATION POINT ,HTML:‧

GB 18030

2312-1980、GBK和CP936传统编码,并支持Unicode(GB 13000)的所有码位。GB 18030采用变长多字节编码,每个字可以由1个、2个或4个字节组成。其编码空间庞大,最多可定义161万个字元。由于GB 18030完全支持Unicode,无需动用造字区即可支持中日韩统一表意文字、中国

附加符号

附加符号或稱變音符號(diacritic、diacritical mark、diacritical point、diacritical sign),是指添加在字母上面的符號,以更改字母的發音或者以區分拼寫相似詞語。例如汉语拼音字母「ü」上面的两个小点,或「á」、「à」字母上面的标调符。

組合附加符號擴展

組合附加符號擴展是一個位於基本多文種平面的Unicode區塊,主要收錄了德語方言字母(英语:Teuthonista)及extIPA中的字符。 以下Unicode文檔記錄了定義本區塊中特定字符的目的與過程: 組合附加符號 組合附加符號補充 符號用組合附加符號 組合半符號 Unicode character database