常用的中文字符集包括
文字是各种文字和符号的总称,包括国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集有很多种,每种字符集包含不同数量的字符。常见的字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等等。
为了准确处理各种字符集,计算机需要对字符进行编码,使计算机能够识别和存储各种字符。汉字数量众多,分为简体字和繁体字,书写规则不同。计算机最初是按照英语单字节字符设计的。因此,汉字编码是中文信息交换的技术基础。
GB2312又称GB2312-80字符集,全称为《信息交换用汉字编码基本集》,由原国家标准总局发布,于5月1981日实施。
GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集扩展》,是中国政府于2000年3月17日发布的汉字编码新国家标准。2006年8月31日之后在中国市场发布的软件必须符合该标准。
GB2312和GB18030的特点:
GB2312是中国国家标准的简体中文字符集。其汉字已经覆盖了99.75%的使用频率,基本满足了计算机处理汉字的需要。它在中国大陆和新加坡被广泛使用。GB2312包含7445个简化字和通用符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语音标和汉语拼音字母。
包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日本平假名和片假名字母以及俄罗斯西里尔字母。
经过广泛参与和论证,GB18030字符集标准由国内外知名信息技术公司、信息产业部和原国家质量技术监督局共同实施。GB18030字符集标准解决了由汉字、日文假名、朝鲜语和中国少数民族语言组成的大字符集的计算机编码问题。该标准总编码空间超过654.38+0.5百万码位,包括27484个汉字,覆盖汉、日、韩和中国少数民族语言。
符合中国大陆、香港、台湾省、日本、韩国信息交换的多语言、大字符、多用途、统一编码格式的要求。并且兼容Unicode 3.0版本,填补了Unicode扩展字符词汇表“统一汉字扩展A”的内容。并且兼容之前的国家字符编码标准(GB2312,GB13000.1)。