专栏名称: 进击的Coder
崔庆才的个人公众号,分享有关网络爬虫、Web开发、机器学习、技术心得、时事新闻、个人感悟等内容。
今天看啥  ›  专栏  ›  进击的Coder

一次性数据抓取的万能方法,半自动抓取任意异步加载网站

进击的Coder  · 公众号  ·  · 2024-07-31 13:01

文章预览

这是「进击的Coder」的第 942  篇技术分享 作者:kingname 来源:未闻 Code “ 阅读本文大概需要 3 分钟。 ” 我们有时候临时需要抓取一批数据,数据不多,可能就几页,几百条数据。手动复制粘贴太麻烦,但目标网站又有比较强的反爬虫,请求有防重放的验证,写代码抓取也不方便。用模拟浏览器又觉得没必要,只用一次的爬虫,写起来很麻烦。 例如,我经常逛色魔张大妈的精选好价页面。这个页面会列出各种折扣的信息。但它只能按大类筛选,无法用关键词搜索。如下图所示: 我打算只看前 10 页内容就好了。但一页一页看太麻烦了。有没有什么快速爬虫,把这个列表页的内容抓取下来呢? 其实这种需求,使用半自动爬虫是最简单的。不需要考虑网站反爬虫的问题,因为你使用的就是真实的浏览器,不会通过代码来发起请求。而且这个列表页 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览