月度存档: 四月 2015

字符集及编码方式

碰到个问题,中文解析乱码,顺手查了些资料,就记在这里了。
自己以前也写过一篇类型的文章:http://www.inter12.org/archives/622

一 基本概念:

字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
字符编码(Character Encoding):是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。
常见字符集:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集
常见字符编码:ASCII编码、GB2312编码、BIG5编码、GB18030编码、Unicode编码
一般所说的UTF-8,包含了
unicode:为表达任意语言的任意字符而设计。它使用4字节的数字来表达每个字母、符号,或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言中使用的符号。
Unicode是字符集,UTF-32/ UTF-16/ UTF-8是三种字符编码方案
 
通常所见的utf-8:指的是unicode字符集,utf-8编码方式
 

二 常见解释:

Accept-Charset:浏览器申明自己接收的字符集,这就是本文前面介绍的各种字符集和字符编码,如gb2312,utf-8(通常我们说Charset包括了相应的字符编码方案);

阅读全文…