带来一篇名词注释:Unicode和UTF-8

只看该作者 · 发表于 2015-1-15 23:30:44

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

通过大家的心得，或许能找出"怎么学html5"这个问题的答案。另，我会不定期把群里面关于技术的讨论贴到本帖，敬请关注。一向在编码方面请求不是很高，以是对Unicode和UTF-8也不甚懂得。
　　比来偶尔翻到一篇UTF-8的文章，感到注释的十分冗杂，因而才想到从头写一篇复杂易懂一点的。
　　起首申明一下如今经常使用的一些编码计划：
　　1、在中国，年夜陆最经常使用的就是GBK18030编码，除此以外另有GBK，GB2312，这几个编码的干系是如许的。
最早制订的汉字编码是GB2312，包含6763个汉字和682个别的标记
95年从头订正了编码，定名GBK1.0，共收录了21886个标记。
以后又推出了GBK18030编码，共收录了27484个汉字，同时还收录了躲文、蒙文、维吾尔文等次要的多数平易近族笔墨，如今WINDOWS平台必须要撑持GBK18030编码。
依照GBK18030、GBK、GB2312的按次，３种编码是向下兼容，统一个汉字在三个编码计划中是不异的编码。
　　2、台湾，喷鼻港等地利用的是BIG5编码
　　3、日本：SJIS编码
　　假如把各类笔墨编码描述为各地的方言，那末Unicode就是天下列国互助开辟的一种言语。
　　在这类言语情况下，不会再有言语的编码抵触，在同屏下，能够显现任何言语的内容，这就是Unicode的最年夜优点。
　　那末Unicode是怎样编码的呢？实在十分复杂。
　　就是将天下上一切的笔墨用２个字节一致举行编码。大概你会问，2个字节最多可以暗示65536个编码，够用吗？
　　韩国和日本的年夜部分汉字都是从中国传布已往的，字型是完整一样的。
　　好比：“文”字，GBK和SJIS中都是统一个汉字，只是编码分歧罢了。
　　那样，像如许一致编码，２个字节就已充足包容天下上一切的言语的年夜部分笔墨了。
　　Unicode的学名是"UniversalMultiple-OctetCodedCharacterSet"，简称为UCS。
　　如今用的是UCS-2，即２个字节编码，而UCS-4是为了避免未来２个字节不敷用才开辟的。UCS-2也称为基础多文种立体。
　　UCS-2转换到UCS-4只是复杂的在后面加２个字节0。
　　UCS-4则次要用于保留帮助立体，比方Unicode4.0中的第二帮助立体
　　20000-20FFF-21000-21FFF-22000-22FFF-23000-23FFF-24000-24FFF-25000-25FFF-　　26000-26FFF-27000-27FFF-28000-28FFF-29000-29FFF-2A000-2AFFF-2F000-2FFFF
　　统共增添了16个帮助立体，由本来的65536个编码扩大至快要100万编码。
　　那末既然一致了编码，怎样兼容本来列国的笔墨编码呢？
　　这个时分就必要codepage了。
　　甚么是codepage？codepage就是列国的笔墨编码和Unicode之间的映照表。
　　好比简体中文和Unicode的映照表就是CP936，点这里检察官方的映照表。
　　以下是几个经常使用的codepage，响应的修正下面的地点的数字便可。
codepage=936简体中文GBK
codepage=950繁体中文BIG5
codepage=437美国/加拿年夜英语
codepage=932日文
codepage=949韩文
codepage=866俄文
codepage=65001unicodeUFT-8
最初一个65001，据团体了解，应当只是一个假造的映照表，实践只是一个算法罢了。
从936中随便取一行，比方：
0x99930x6ABD#CJKUNIFIEDIDEOGRAPH
后面的编码是GBK的编码，前面的是Unicode。
经由过程查这张表，就可以复杂的完成GBK和Unicode之间的转换。

　　如今分明了Unicode，那末UTF-8又是甚么呢？又为何会呈现UTF-8呢？
　　ASCII转换成UCS-2，只是在编码前拔出一个0x0。用这些编码，会包含一些把持符，好比或/，这在UNIX和一些C函数中，将会发生严峻毛病。因而能够一定，UCS-2不合适作为Unicode的内部编码。
　　因而，才出生了UTF-8。那末UTF-8是怎样编码的？又是怎样办理UCS-2的成绩呢？
例：
E4BDA0　　　　　　　　111001001011110110100000
这是“你”字的UTF-8编码
4F60　　　　　　　　　　0100111101100000
这是“你”的Unicode编码
依照UTF-8的编码划定规矩，分化以下：xxxx0100xx111101xx100000
把除x以外的数字拼接在一同，就酿成“你”的Unicode编码了。
注重UTF-8的最后面３个1，暗示全部UTF-8串是由３个字节组成的。
经由UTF-8编码以后，不再会呈现敏感字符了，由于最高位一直为1。
以下是Unicode和UTF-8之间的转换干系表：
U-00000000-U-0000007F:0xxxxxxx
U-00000080-U-000007FF:110xxxxx10xxxxxx
U-00000800-U-0000FFFF:1110xxxx10xxxxxx10xxxxxx
U-00010000-U-001FFFFF:11110xxx10xxxxxx10xxxxxx10xxxxxx
U-00200000-U-03FFFFFF:111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx
U-04000000-U-7FFFFFFF:1111110x10xxxxxx10xxxxxx10xxxxxx10xxxxxx10xxxxxx
Unicode编码转换到UTF-8,复杂的把Unicode字撙节套到x中就酿成UTF-8了。
</p>
使用HTML5也是断断续续的有些历史了，但是没有系统的总结过，最近发现公司的图书馆有不少藏书，

只看该作者 · 发表于 2015-1-17 22:58:58

经过两天的学习，总算对Dreamweaver有进一步的了解了，心中不免有些激动。今天和其他几位老师交流了一下，感觉受益匪浅.

只看该作者 · 发表于 2015-1-21 17:41:35

Dreamweaver8中文版(dw)是由Macromedia公司开发的一款所见即所得的网页编辑器。和二维动画设计软件FLASH，专业网页图像设计软件FIREWORKS，并称为“网页三剑客”。

只看该作者 · 发表于 2015-1-30 21:35:43

只要我们努力，无论是怎样的艰难险阻，成功依然会迎面直击。在刚开始时我觉得dreamweaver mx XX很难理解。

只看该作者 · 发表于 2015-2-17 04:46:23

还可以在Dreamweaver常用工具中选择超级链接，完成相应的填写即可。

只看该作者 · 发表于 2015-3-5 16:02:20

您在所见即所得网页编辑器进行网页制作和在WORD中进行文本编辑不会感到有什么区别，但它同时也存在着致命的弱点。

只看该作者 · 发表于 2015-3-12 10:30:56

Dreamweaver8中文版(dw)是由Macromedia公司开发的一款所见即所得的网页编辑器。和二维动画设计软件FLASH，专业网页图像设计软件FIREWORKS，并称为“网页三剑客”。

只看该作者 · 发表于 2015-3-19 20:48:06

不管老师做怎样的解释，而我却对它感到很是吃力，诸如里面有许多不知道的功能。

		自动登录	找回密码
密码			立即注册

[HTML5] 带来一篇名词注释:Unicode和UTF-8

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子