编码解析问题记
⚠️编码解析问题记
IT|2024-12-4|Last edited: 2025-11-4
type
status
date
slug
summary
tags
category
icon
password

编码问题记录

一、requests请求网页

发现这样改成gb2312编码后有些文字还是乱码
查了下编码相关的
设置了gb2312但仍有部分乱码,而浏览器显示正常
这是个 编码“超集” 问题
 
浏览器有一个“潜规则”:当一个网页的HTTP头或<meta>标签声明自己是 charset=gb2312 时,浏览器为了最大限度地兼容,实际上会使用 gbk 或者 gb18030 编码来解码
  • gb2312:是一个较早的、较小的字符集(约6700个汉字)。
  • gbk:是 gb2312 的超集(Superset),包含了 gb2312 的所有内容,并增加了更多的汉字和符号(约21000个字符)。
  • gb18030:是 gbk 的超集,包含了 gbk 的所有内容,并增加了更多字符(是目前最全的中文官方标准)。
 
docker相关记录爬虫经验知识积累
Loading...