📑 Table of Contents

UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示231个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。

UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下,其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中,编码序列中的字符位置可以用一个整数来表示,整数加一即可得到下一个字符的位置,就和ASCII字符串一样简单。

UTF-32的主要缺点是每个码位使用四个字节,空间浪费较多。在大多数文本中,非基本多文種平面的字符非常罕见,这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍(具体取决于文本中ASCII字符的比例)。

尽管每一個碼位使用固定長度的位元組看似方便,但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8UTF-16相比,UTF-32更容易遭到截斷。即使使用了"定寬"字型,在大多数情况下用UTF-32計算顯示字串的寬度也并不比其他编码更加容易。主要原因是,存在著一個字符位置會有多於一種可能的碼點(結合字符)或一個碼點用多於一個字符位置(如CJK表意字符)。結合符號也意味著,文書編輯者不能將一個码位視同一個編輯上的單位。

歷史

编辑

原本ISO 10646標準定義了一個32位元的編碼形式,稱作UCS-4通用字符集(UCS)的每一個字符由0到十六進制的7FFFFFFF的31位数值表示(符号位未使用且零)。UCS-4足以用來表示所有的Unicode的字碼空間,其最大的碼位為十六進制的7FFFFFFF,所以其空間約20亿個碼位。2003年11月,由于UTF-16编码形式的限制,RFC 3629标准将Unicode限制为仅支持U+10FFFF以内的码位(另外U+D800到U+DFFF范围内也被保留使用)[1][2]。虽然在之前的ISO标准(1998年的Unicode 2.1)中0xE00000到0xFFFFFF和0x60000000到0x7FFFFFFF这些区域被分配给“保留私人使用”,但这些区域也在后续版本中被删除。在 ISO/IEC JTC 1/SC 2 WG2申明中规定UCS-4将来所有的字符分配将被限制在Unicode范围内,所以UTF-32和UCS4能表示的字符是相同的。

註釋

编辑
  1. ^ ISO/IEC 10646:2014页面存档备份,存于互联网档案馆) Clause 9.4: "Because surrogate code points are not UCS scalar values, UTF-32 code units in the range 0000 D800-0000 DFFF are ill-formed". Clause 4.57: "[UCS codespace] consisting of the integers from 0 to 10 FFFF (hexadecimal)". Clause 4.58: "[UCS scalar value] 存档副本 (PDF). [2017-04-13]. (原始内容 (PDF)存档于2015-01-04).  any UCS code point except high-surrogate and low-surrogate code points".
  2. ^ Mapping code points to Unicode encoding forms页面存档备份,存于互联网档案馆), § 1: UTF-32

外部連結

编辑

📚 Artikel Terkait di Wikipedia

JIS X 0208

16区-47区,一级汉字(第1水準)2965个。 48区-84区,二级汉字(第2水準)3390个。 85区-94区:私人造字區(空き領域,unassigned code-points) 第1次規格制定1年後,田嶋一夫(日语:田嶋一夫)報告了63個在《康熙字典》、《大漢和辭典》中都找不到的漢字,這些漢字被稱為「幽靈文字」或「幽靈漢字」。

国际滑冰联盟裁判系统

国际滑冰联盟裁判系统(英文:ISU Judging System),也被称为CoP系统(英文: Code of Points)或国际裁判系统(英文:International Judging System,简称:IJS),是当前花样滑冰体育比赛项目中对于男子及女子单人滑、双人滑、冰舞以及队列滑项目进行评分的裁判系统。

組合附加符號擴展

recommendations, 2021-04-26, For Unicode version 14.0, reassign six code points U+1AC9..1ACE as noted in L2/21-069 item PRI428a.  L2/21-066 Moore, Lisa

曼達安文 (Unicode區段)

11.2, and C.11.3, Draft Minutes of UTC Meeting 162, 2020-01-23  Proposed code points and characters names may differ from final code points and names

拉丁字母擴展-C

(B.14.2), UTC #103 Minutes, 2005-08-26  L2/05-270 Whistler, Ken, C. Code points for already approved Latin characters, WG2 Consent Docket (Sophia Antipolis)

Unicode一覽表 D000-DFFF

represent the supplementary plane code points, whose values are too large to fit in 16 bits. A pair of 16-bit code points — the first from the high surrogate

哈特拉文 (Unicode区段)

Approve 26 Hatran characters with block Hatran at U+108E0..U+108FF, with code points, names, and glyphs as shown in L2/13-151 for a future version of the

傣那文 (Unicode區段)

the Tai Le collection of characters with names (TAI LE LETTER..) and code points (1950..196D, 1970..1974) as described in section 3b, L2/01-420.  L2/02-154