文章预览
摄影:产品经理 牛肝菌炒饭 在之前的文章 《一次性数据抓取的万能方法,半自动抓取任意异步加载网站》 中,我讲到一个万能的爬虫开发方法。从浏览器保存HAR文件,然后写Python代码解析HAR文件来抓取数据。 但可能有同学连Python代码都不想写,他觉得还要学习 haralyzer 太累了,有没有什么办法,只需要说自然语言,就能解析HAR文件? 最近我在测试 open-interpreter ,发现借助它,基本上已经可以实现自然语言编程的效果了。今天我们用小红书为例来介绍这个方法。 如下图所示,我现在要抓取小红书首页游戏频道的帖子。通过不停往下滑动页面,我已经抓到了不少数据包。 现在,把所有数据包保存为 xiaohongshu.har 文件(方法看我上一篇文章)。 接下来,我们来安装 open-interpreter ,使用pip进行安装就可以了: pip install open-interpreter 。它依赖的第三方库
………………………………