专栏名称: 未闻Code
博主喜欢Python和爬虫,已经出了两本书。这里是他灵感的发源地。关注这个公众号,你的生产效率在三天内就会得到提高。P.S.: 这个公众号日更。
今天看啥  ›  专栏  ›  未闻Code

阅读源代码,学习Requests与Scrapy怎么解决编码问题

未闻Code  · 公众号  ·  · 2024-07-17 21:02

文章预览

阅读收益预览 1、你将会了解到源码跟进的过程; 2、你将会看到问题分析的思路; 3、你可以解决 Requests 库关于编码猜测不准确的问题; 内容介绍 这一篇我们来观摩 Python 中的 Requests、Scrapy 库以及 Golang 中的 Charset 库对于网页编码的处理逻辑,并让你具备提高 Requests 库编码猜测准确性的能力。 乱码现象 近期在工程实践中发现了一个长期潜伏的 网页文本乱码问题 ,也就是爬取网页后,打印出来的文本是乱码。如果你是 Python 工程师,你可以试试下面这段代码: import requests # GB2312 resp = requests.get("http://news.inewsweek.cn/society/2022-05-30/15753.shtml") print(resp.text) 打印出来的网页文本,中文部分就是乱码,这真是令我狗头 🐶 变大。 你心里可能会有这样的疑问 :“按理说,Python 的 Requests 库应该能够帮助我们自动识别编码,然后自动转换才对的”。“但事实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览