|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
我想在讲述自己的学习方式前,对那些期望能从我的文章中获得有用信息的人说一句心里话: 字符是各类文字和符号的总称,包含列国家文字、标点符号、图形符号、数字等。字符集是多个字符的纠合,字符集品种较多,每一个字符集包括的字符个数分歧,罕见字符集称号:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。盘算机要正确的处置各类字符集文字,需求停止字符编码,以便盘算性能够辨认和存储各类文字。
中文文字数量大,并且还分为简体中文和繁体中文两种分歧书写划定规矩的文字,而盘算机最后是按英语单字节字符设计的,因而,对中文字符停止编码,是中文信息交换的手艺基本。本文将依照字符集的工夫按次会商几种典范的字符集,拔取几种代表性的中文字符集,研讨汗青由来、特色、手艺特点。
ASCII 字符集
1.称号的由来
ASCII(American Standard Code for Information Interchange,美国信息交换尺度代码)是基于罗马字母表的一套电脑编码体系。
2.特色
它次要用于显示古代英语和其他西欧言语。它是当今最通用的单字节编码体系,并同等于国际尺度ISO 646。
3.包括内容
掌握字符:回车键、退格、换行键等。
可显示字符:英文巨细写字符、阿拉伯数字和西文符号
4.手艺特点
7位(bits)暗示一个字符,共128字符
5.ASCII扩大字符集
7位编码的字符集只能撑持128个字符,为了暗示更多的欧洲经常使用字符对ASCII停止了扩大,ASCII扩大字符集利用8位(bits)暗示一个字符,共256字符。
ASCII扩大字符集比ASCII字符集扩大出来的符号包含表格符号、盘算符号、希腊字母和特别的拉丁符号。
GB2312 字符集
1.称号的由来
GB2312又称为GB2312-80字符集,全称为《信息互换用汉字编码字符集·根基集》,由原中国国度尺度总局宣布,1981年5月1日实行。
2.特色
GB2312是中国国度尺度的简体中文字符集。它所收录的汉字已掩盖99.75%的利用频率,根基知足了汉字的盘算机处置需求。在中国大陆和新加坡获普遍利用。
3.包括内容
GB2312收录简化汉字及普通符号、序号、数字、拉丁字母、日文化名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。个中包含6763个汉字,个中一级汉字3755个,二级汉字3008个;包含拉丁字母、希腊字母、日文平化名及片化名字母、俄语西里尔字母在内的682个全角字符。
4.手艺特点
(1)分区暗示:
GB2312中对所收汉字停止了“分区”处置,每区含有94个汉字/符号。这类暗示体例也称为区位码。
各区包括的字符以下:01-09区为特别符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔划排序;10-15区及88-94区则未有编码。
(2)双字节暗示
两个字节中后面的字节为第一字节,前面的字节为第二字节。习气上称第一字节为“高字节” ,而称第二字节为“低字节”。
“高位字节”利用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”利用了0xA1-0xFE(把01-94加上0xA0)。
5.编码举例
以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多半盘算机法式中,高字节和低字节分离加0xA0失掉法式的汉字处置编码0xB0A1。盘算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
BIG5 字符集
1.称号的由来
又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、公共 (FIC)创建,故称大五码。
Big5码的发生,是由于事先台湾分歧厂商各自推出分歧的编码,如倚天码、IBM PS55、王安码等,彼此不克不及兼容;另外一方面,台湾当局事先还没有推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
2.特色
Big5字符集共收录13,053个中文字,该字符集在中国台湾利用。耐人寻味的是该字符集反复地收录了两个不异的字:“兀”(0xA461及0xC94A)、“”(0xDCD1及0xDDFC)。
3.字符编码办法
Big5码利用了双字节贮存办法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码局限0xA1-0xF9,低位字节的编码局限0x40-0x7E及0xA1-0xFE。
各编码局限对应的字符类型以下:0xA140-0xA3BF为标点符号、希腊字母及特别符号,别的于0xA259-0xA261,寄存了双音节器度衡单元用字:憝H;0xA440-0xC67E为经常使用汉字,先按笔画再按部首排序;0xC940-0xF9D5为次经常使用汉字,亦是先按笔画再按部首排序。
4.Big5 的局限性
虽然Big5码内包括一万多个字符,然而没有思索社会下流通的人名、地名用字、方言用字、化学及生物科等用字,没有包括日文平化名及片化名字母。
例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“u”、“h”等)、罕见的人名用字(如“”、“煊”、“”、“”等) 也没有收录到Big5当中。
GB18030 字符集
1.称号的由来
GB 18030的全称是GB18030-2000《信息互换用汉字编码字符集根基集的扩大》,是我国当局于2000年3月17日宣布的新的汉字编码国度尺度,2001年8月31往后在中国市场上宣布的软件必需合适本尺度
2.特色
GB 18030字符集尺度的出台经由普遍介入和论证,来自国际外著名信息手艺行业的公司,信息家产部和原国度质量手艺监视局结合实行。
GB 18030字符集尺度处理汉字、日文化名、朝鲜语和中国多数平易近族文字构成的大字符集盘算机编码成绩。该尺度的字符总编码空间超越150万个编码位,收录了27484个汉字,掩盖中文、日文、朝鲜语和中国多数平易近族文字。知足中国大陆、喷鼻港、台湾、日本和韩国等东亚区域信息互换多文种、大字量、多用处、一致编码格局的请求。而且与Unicode 3.0版本兼容,弥补Unicode扩大字符字汇“一致汉字扩大A”的内容。而且与之前的国度字符编码尺度(GB2312,GB13000.1)兼容。
3.编码办法
GB 18030尺度采取单字节、双字节和四字节三种体例对字符编码。单字节局部利用0 |
|