注册
登录
专栏名称:
未闻Code
博主喜欢Python和爬虫,已经出了两本书。这里是他灵感的发源地。关注这个公众号,你的生产效率在三天内就会得到提高。P.S.: 这个公众号日更。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
Insight数据库
·
刚刚!康方生物 PCSK9 ...
·
3 天前
医药经济报
·
刘茂柏:关注罕见心血管疾病负担,促进梗阻性肥 ...
·
5 天前
医药经济报
·
“驾照式记分”监管到人!医保支付资格管理制度 ...
·
5 天前
医药经济报
·
石药复方制剂获批临床,扬子江、正大天晴、齐鲁 ...
·
1 周前
今天看啥
›
专栏
›
未闻Code
一日一技:图文结合,大模型自动抓取列表页
未闻Code
·
公众号
· · 2024-09-05 12:00
文章预览
摄影:产品经理 开胃小菜 熟悉我的同学都知道,GNE可以自动化提取任意文章页面的正文,专业版GnePro的准确率更是在13万个网站中达到了90%。 但GNE一直不支持列表页的自动抓取。这是因为列表页的列表位置很难定义。例如下面这张图片: 对人来说,要找到文章列表很简单,红色方框框住的部分就是我们需要的文章列表。但如果让程序自动根据HTML格式相似的规律来寻找列表页,它可能会提取出蓝色方框的位置、绿色方框的位置、灰色方框的位置,甚至导航栏。 之前我也试过使用ChatGPT来提取文章列表,但效果并不理想。因为传给大模型HTML以后,他也不能知道这里面某个元素在浏览器打开以后,会出现什么位置。因此它本质上还是通过HTML找元素相似的规律来提取列表项目。那么其实没有解决我的根本问题,上图中的蓝色、绿色、灰色位置还是经常 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
Insight数据库
·
刚刚!康方生物 PCSK9 单抗「伊努西单抗」获批上市
3 天前
医药经济报
·
刘茂柏:关注罕见心血管疾病负担,促进梗阻性肥厚型心肌病药物可及
5 天前
医药经济报
·
“驾照式记分”监管到人!医保支付资格管理制度三年内推开
5 天前
医药经济报
·
石药复方制剂获批临床,扬子江、正大天晴、齐鲁……600亿高血压市场风向变了?
1 周前
清华经管学院职业发展中心
·
招聘|酿造梦想,无畏启航:华润啤酒2025届管培生招聘火热开启!
1 周前
小野爱分享2022
·
免F墙即可使用,果内歪一网打尽!
4 天前