GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
一、字汇
GBK规范收录了ISO10646.1中的全部CJK汉字和符号,并有所补充。具体包括:1.GB2312中的全部汉字、非汉字符号。2.GB13000.1中的其他CJK汉字。以上合计20902个GB化汉字。3.《简化字总表》中未收入GB13000.1的52个汉字。4.《康熙字典》及《辞海》中未收入GB13000.1的28个部首及重要构件。5.13个汉字结构符。6.BIG-5中未被GB2312收入、但存在于GB13000.1中的139个图形符号。7.GB12345增补的6个拼音符号。8.汉字“〇”。9.GB12345增补的19个竖排标点符号(GB12345较GB2312增补竖排标点符号29个,其中10个未被GB13000.1收入,故GBK亦不收)。10.从GB13000.1的CJK兼容区挑选出的21个汉字。11.GB13000.1收入的31个IBMOS/2专用符号。12.未录入《新华字典》上的一些字,如“韡”的简体。
二、码位分配及顺序
GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。
全部编码分为三大部分:
1.汉字区。包括:a.GB2312汉字区。即GBK/2:B0A1-F7FE。收录GB2312汉字6763个,按原顺序排列。b.GB13000.1扩充汉字区。包括:(1)GBK/3:8140-A0FE。收录GB13000.1中的CJK汉字6080个。(2)GBK/4:AA40-FEA0。收录CJK汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。(3)汉字“〇”安排在图形符号区GBK/5:A996。
2.图形符号区。包括:a.GB2312非汉字符号区。即GBK/1:A1A1-A9FE。其中除GB2312的符号外,还有10个小写罗马数字和GB12345增补的符号。计符号717个。b.GB13000.1扩充非汉字区。即GBK/5:A840-A9A0。BIG-5非汉字符号、结构符和“〇”排列在此区。计符号166个。
3.用户自定义区:分为(1)(2)(3)三个小区。(1)AAA1-AFFE,码位564个。(2)F8A1-FEFE,码位658个。(3)A140-A7A0,码位672个。第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
三、字形
GBK对字形作了如下的规定:1.原则上与GB13000.1G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。2.在CJK汉字认同规则的总框架内,对所有的GBK编码汉字实施“无重码正形”(“GB化”);即在不造成重码的前提下,尽量采用中国新字形。3.对于超出CJK汉字认同规则的、或认同规则尚未明确规定的汉字,在GBK码位上暂安放旧字形。这样,在许多情况下GBK收入了同一汉字的新旧两种字形。4.非汉字符号的字形,凡GB2312已经包括的,与GB2312保持一致;超出GB2312的部分,与GB13000.1保持一致。5.带声调的拼音字母取半角形式。
GBK编码表
全国信息技术标准化技术委员会汉字内码扩展规范(GBK)ChineseInternalCodeSpecification1.0版(按编码顺序排列)