一日一技：使用大模型实现全自动爬虫（一）

未闻Code · 公众号 · · 2024-10-16 20:29

文章预览

摄影：产品经理八爪鱼的一爪在文章一日一技：图文结合，大模型自动抓取列表页中，我提到可以使用大模型实现一个全自动爬虫。只需要输入起始URL加上需求，就可以借助模拟浏览器自动完成所有的抓取任务。今天，借着智谱全模型家族正式上线 bigmodel.cn这个契机，我们就来实现全自动爬虫。在实现的过程中，我发现涉及到的知识点可能一篇文章讲不完，因此拆分成了多篇文章。爬虫演示今天是第一部分，我们暂时不依赖模拟浏览器，而是使用 httpx （你也可以使用 requests ）实现全自动爬虫，传入我博客文章列表页，爬虫会自动抓取前三页所有博客文章的标题、正文、作者、发布时间。爬取结果如下图所示：运行过程如下图所示：爬虫首先会进入起始列表页，抓取上面的所有文章。然后进入列表页第二页，再抓取所有文章，最后进入第三 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾邦高分子 · 君华股份展示其在CF/PEEK领域的创新成果与应用方案

12 小时前

高分子科学前沿 · 中国科学院动物研究所HOPE装置面向全球招聘高层次人才

22 小时前

高分子科学前沿 · 中国科学院苏州纳米所张珽/李连辉AFM：基于纳米通道多维调控的高性能柔性水伏离子传感器件

昨天

高分子科技 · 西工大刘剑刚教授团队 AEM：控制第三组分分布实现高性能三元有机太阳能电池

2 天前

艾邦高分子 · 欢迎加入超临界发泡产业链微信群

2 天前

中国广核集团 · 科技日报：“清洁能源+”融合发展服务新型能源体系

5 月前

九芯语音ic · 发布了头条文章：《眼部按摩仪NV512H语音方案，单芯片实现语音-20250111134610

2 月前