专栏名称: 未闻Code
博主喜欢Python和爬虫,已经出了两本书。这里是他灵感的发源地。关注这个公众号,你的生产效率在三天内就会得到提高。P.S.: 这个公众号日更。
今天看啥  ›  专栏  ›  未闻Code

一日一技:使用大模型实现全自动爬虫(一)

未闻Code  · 公众号  ·  · 2024-10-16 20:29
    

文章预览

摄影:产品经理 八爪鱼的一爪 在文章 一日一技:图文结合,大模型自动抓取列表页 中,我提到可以使用大模型实现一个全自动爬虫。只需要输入起始URL加上需求,就可以借助模拟浏览器自动完成所有的抓取任务。今天,借着智谱全模型家族正式上线 bigmodel.cn这个契机,我们就来实现全自动爬虫。 在实现的过程中,我发现涉及到的知识点可能一篇文章讲不完,因此拆分成了多篇文章。 爬虫演示 今天是第一部分,我们暂时不依赖模拟浏览器,而是使用 httpx (你也可以使用 requests )实现全自动爬虫,传入我博客文章列表页,爬虫会自动抓取前三页所有博客文章的标题、正文、作者、发布时间。 爬取结果如下图所示: 运行过程如下图所示: 爬虫首先会进入起始列表页,抓取上面的所有文章。然后进入列表页第二页,再抓取所有文章,最后进入第三 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览