⚠️编码解析问题记
type
status
date
slug
summary
tags
category
icon
password
编码问题记录
一、requests请求网页
发现这样改成gb2312编码后有些文字还是乱码
查了下编码相关的
设置了gb2312但仍有部分乱码,而浏览器显示正常
这是个 编码“超集” 问题
浏览器有一个“潜规则”:当一个网页的HTTP头或
<meta>标签声明自己是 charset=gb2312 时,浏览器为了最大限度地兼容,实际上会使用 gbk 或者 gb18030 编码来解码。- gb2312:是一个较早的、较小的字符集(约6700个汉字)。
- gbk:是
gb2312的超集(Superset),包含了gb2312的所有内容,并增加了更多的汉字和符号(约21000个字符)。
- gb18030:是
gbk的超集,包含了gbk的所有内容,并增加了更多字符(是目前最全的中文官方标准)。