今天看啥  ›  专栏  ›  Dance with GenAI

AI网络爬虫:搜狗图片的时间戳反爬虫应对策略

Dance with GenAI  · 公众号  ·  · 2024-06-23 06:56
    

文章预览

如何批量爬取下载搜狗图片搜索结果页面的图片?以孙允珠这个关键词的搜索结果为例: https:// pic.sogou.com/pics? query=%E5%AD%99%E5%85%81%E7%8F%A0 =2 翻页规律如下: https:// pic.sogou.com/napi/pc/s earchList?mode=2 =384 _len=48 =%E5%AD%99%E5%85%81%E7%8F%A0 =pc_pic https:// pic.sogou.com/napi/pc/s earchList?mode=2 =336 _len=48 =%E5%AD%99%E5%85%81%E7%8F%A0 =pc_pic https:// pic.sogou.com/napi/pc/s earchList?mode=2 =288 _len=48 =%E5%AD%99%E5%85%81%E7%8F%A0 =pc_pic 这三个URL都指向同一个服务,即搜狗图片搜索的API,用于获取孙允珠相关的图片搜索结果。它们之间的规律主要体现在查询参数 `start` 和 `xml_len` 上: **start** 参数:这个参数控制了搜索结果的起始位置。在第一个URL中,`start` 的值是384,第二个URL中是336,第三个URL中是288。这表明每次请求的搜索结果是从前一次请求的结果之后开始获取的。例如,如果每页显示48张图片(由 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览