?字符串编码转换(GBK)
Unicode、UTF-8、GBK、GB2312、GB18030、BIG5等。都是在字符编码中经常听到的,大致可以分为两类:全球统一编码和几种语言的独立编码。
Unicode是典型的全球统一编码。无论在哪个国家,同一个单词的unicode字符都是一样的。常用的unicode字符是2字节,也有4字节编码。
UTF8是unicode的一种编码方法。对应2字节unicode,utf8是1字节(英文)或3字节(中文)。实际情况比这更复杂,这里只是常见情况。
GBK、GB2312和GB18030都是简体中文代码。GB2312是GBK的子集,GBK是GB18030的子集。
BIG5是台湾省使用的繁体中文代码。
如果网页编码是UTF-8,它可以简单地转换成字符串,如下所示:
如果网页是gbk或者gb2312,如果用UTF-8进行转换,pageSource会返回nil,然后需要gbk编码进行转换。