仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 877|回复: 7
打印 上一主题 下一主题

[HTML5] 带来一篇名词注释:Unicode和UTF-8

[复制链接]
小魔女 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-1-15 23:30:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
通过大家的心得,或许能找出"怎么学html5"这个问题的答案。另,我会不定期把群里面关于技术的讨论贴到本帖,敬请关注。一向在编码方面请求不是很高,以是对Unicode和UTF-8也不甚懂得。
  比来偶尔翻到一篇UTF-8的文章,感到注释的十分冗杂,因而才想到从头写一篇复杂易懂一点的。
  起首申明一下如今经常使用的一些编码计划:
  1、在中国,年夜陆最经常使用的就是GBK18030编码,除此以外另有GBK,GB2312,这几个编码的干系是如许的。
最早制订的汉字编码是GB2312,包含6763个汉字和682个别的标记
95年从头订正了编码,定名GBK1.0,共收录了21886个标记。
以后又推出了GBK18030编码,共收录了27484个汉字,同时还收录了躲文、蒙文、维吾尔文等次要的多数平易近族笔墨,如今WINDOWS平台必须要撑持GBK18030编码。
依照GBK18030、GBK、GB2312的按次,3种编码是向下兼容,统一个汉字在三个编码计划中是不异的编码。
  2、台湾,喷鼻港等地利用的是BIG5编码
  3、日本:SJIS编码
  假如把各类笔墨编码描述为各地的方言,那末Unicode就是天下列国互助开辟的一种言语。
  在这类言语情况下,不会再有言语的编码抵触,在同屏下,能够显现任何言语的内容,这就是Unicode的最年夜优点。
  那末Unicode是怎样编码的呢?实在十分复杂。
  就是将天下上一切的笔墨用2个字节一致举行编码。大概你会问,2个字节最多可以暗示65536个编码,够用吗?
  韩国和日本的年夜部分汉字都是从中国传布已往的,字型是完整一样的。
  好比:“文”字,GBK和SJIS中都是统一个汉字,只是编码分歧罢了。
  那样,像如许一致编码,2个字节就已充足包容天下上一切的言语的年夜部分笔墨了。
  Unicode的学名是"UniversalMultiple-OctetCodedCharacterSet",简称为UCS。
  如今用的是UCS-2,即2个字节编码,而UCS-4是为了避免未来2个字节不敷用才开辟的。UCS-2也称为基础多文种立体。
  UCS-2转换到UCS-4只是复杂的在后面加2个字节0。
  UCS-4则次要用于保留帮助立体,比方Unicode4.0中的第二帮助立体
  20000-20FFF-21000-21FFF-22000-22FFF-23000-23FFF-24000-24FFF-25000-25FFF-  26000-26FFF-27000-27FFF-28000-28FFF-29000-29FFF-2A000-2AFFF-2F000-2FFFF
  统共增添了16个帮助立体,由本来的65536个编码扩大至快要100万编码。
  那末既然一致了编码,怎样兼容本来列国的笔墨编码呢?
  这个时分就必要codepage了。
  甚么是codepage?codepage就是列国的笔墨编码和Unicode之间的映照表。
  好比简体中文和Unicode的映照表就是CP936,点这里检察官方的映照表。
  以下是几个经常使用的codepage,响应的修正下面的地点的数字便可。
codepage=936简体中文GBK
codepage=950繁体中文BIG5
codepage=437美国/加拿年夜英语
codepage=932日文
codepage=949韩文
codepage=866俄文
codepage=65001unicodeUFT-8
最初一个65001,据团体了解,应当只是一个假造的映照表,实践只是一个算法罢了。
从936中随便取一行,比方:
0x99930x6ABD#CJKUNIFIEDIDEOGRAPH
后面的编码是GBK的编码,前面的是Unicode。
经由过程查这张表,就可以复杂的完成GBK和Unicode之间的转换。

  如今分明了Unicode,那末UTF-8又是甚么呢?又为何会呈现UTF-8呢?
  ASCII转换成UCS-2,只是在编码前拔出一个0x0。用这些编码,会包含一些把持符,好比或/,这在UNIX和一些C函数中,将会发生严峻毛病。因而能够一定,UCS-2不合适作为Unicode的内部编码。
  因而,才出生了UTF-8。那末UTF-8是怎样编码的?又是怎样办理UCS-2的成绩呢?
例:
E4BDA0        111001001011110110100000
这是“你”字的UTF-8编码
4F60          0100111101100000
这是“你”的Unicode编码
依照UTF-8的编码划定规矩,分化以下:xxxx0100xx111101xx100000
把除x以外的数字拼接在一同,就酿成“你”的Unicode编码了。
注重UTF-8的最后面3个1,暗示全部UTF-8串是由3个字节组成的。
经由UTF-8编码以后,不再会呈现敏感字符了,由于最高位一直为1。
以下是Unicode和UTF-8之间的转换干系表:
U-00000000-U-0000007F:0xxxxxxx
U-00000080-U-000007FF:110xxxxx10xxxxxx
U-00000800-U-0000FFFF:1110xxxx10xxxxxx10xxxxxx
U-00010000-U-001FFFFF:11110xxx10xxxxxx10xxxxxx10xxxxxx
U-00200000-U-03FFFFFF:111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx
U-04000000-U-7FFFFFFF:1111110x10xxxxxx10xxxxxx10xxxxxx10xxxxxx10xxxxxx
Unicode编码转换到UTF-8,复杂的把Unicode字撙节套到x中就酿成UTF-8了。
</p>
使用HTML5也是断断续续的有些历史了,但是没有系统的总结过,最近发现公司的图书馆有不少藏书,
分手快乐 该用户已被删除
沙发
发表于 2015-1-17 22:58:58 | 只看该作者
经过两天的学习,总算对Dreamweaver有进一步的了解了,心中不免有些激动。今天和其他几位老师交流了一下,感觉受益匪浅.
爱飞 该用户已被删除
板凳
发表于 2015-1-21 17:41:35 | 只看该作者
Dreamweaver8中文版(dw)是由Macromedia公司开发的一款所见即所得的网页编辑器。和二维动画设计软件FLASH,专业网页图像设计软件FIREWORKS,并称为“网页三剑客”。
不帅 该用户已被删除
地板
发表于 2015-1-30 21:35:43 来自手机 | 只看该作者
只要我们努力,无论是怎样的艰难险阻,成功依然会迎面直击。在刚开始时我觉得dreamweaver mx XX很难理解。
若天明 该用户已被删除
5#
发表于 2015-2-17 04:46:23 | 只看该作者
还可以在Dreamweaver常用工具中选择超级链接,完成相应的填写即可。
灵魂腐蚀 该用户已被删除
6#
发表于 2015-3-5 16:02:20 | 只看该作者
您在所见即所得网页编辑器进行网页制作和在WORD中进行文本编辑不会感到有什么区别,但它同时也存在着致命的弱点。
愤怒的大鸟 该用户已被删除
7#
发表于 2015-3-12 10:30:56 | 只看该作者
Dreamweaver8中文版(dw)是由Macromedia公司开发的一款所见即所得的网页编辑器。和二维动画设计软件FLASH,专业网页图像设计软件FIREWORKS,并称为“网页三剑客”。
再见西城 该用户已被删除
8#
发表于 2015-3-19 20:48:06 | 只看该作者
不管老师做怎样的解释,而我却对它感到很是吃力,诸如里面有许多不知道的功能。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-12-23 21:30

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表