Java学习笔记-字符编码

计算机的本质是对数字的处理,所以,任何需要计算机处理的字符都必须首先完成数字化,即利用数字对字符进行编码。有鉴于编码方式的不同,产生了多种“字符编码”。

1.本地化编码

任何国家的字符要在计算机中表示均需对其进行编码工作,初期,各国均针对自己特有字符进行各自的编码。如美国提出的 ASCII 码,占用一个字节;中国的 GB2312 码,占用两个字节,随后又在此基础上提出了 GBK 编码。这些编码均可视为本地化编码。

2.unicode 码

本地化编码的多样性必然带来解析的差异性,为解决这个问题,业界需要一种统一化的编码规范,ISO 将全世界的所有的符号进行了统一的编码,即 unicode。使用 unicode 码,字符不在区分国家和地区

unicode 采用两个字节对字符进行编码,可知 unicode 最大能力只能对 2^16=65536 个字符进行编码。实际上,unicode 编码中还保留了 2000 多个数值没有用于字符编码,如此一来,unicode 编码只有 63000 多个基本字符。这种情况当然不可能包括世界上所有的字符,如中国的藏文、满文等。但现有编码足以应付绝大多数场合的需要了。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注