专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

相关文章推荐

南城发布 · 江西这条高铁有新进展！ · 2 天前

洪观新闻 · 强雷电！雷雨大风！马上抵达江西 · 3 天前

江南都市报 · 骤降11℃！大雾、暴雨、雷暴大风即将上线！江 ... · 3 天前

福州日报 · 福州一批景点“上新”了！“五一”走起…… · 3 天前

江西商务 · 定好闹钟！江西一大波消费券来了 · 3 天前

今天看啥 › 专栏 › Dance with GenAI

用deepseek爬取网页内多个表格的数据

Dance with GenAI · 公众号 · · 2024-08-03 08:53

文章预览

一个网页中有50个表格，现在要全部爬取下来保存到excel表格中。每个表格的xpath是有规律的，借助这个批量爬取表格内容。在deepseek中输入提示词：写一个Python脚本，提取网页中的表格数据，具体步骤如下：在F盘新建一个excel工作簿，名称为public-apis.xlsx 打开网页： https:// github.com/public-apis/ public-apis 定位其中Xpath=//*[@id="repo-content-pjax-container"]/div/div/div[2]/div[1]/react-partial/div/div/div[3]/div[2]/div/div[2]/article/div[{hnumber}]/h3 的h3标签，变量{hnumber}的值是从8到58，提取h3标签的内容，设为变量{excelname}，作为public-apis.xlsx工作簿中工作表的名称；定位其中Xpath=//*[@id="repo-content-pjax-container"]/div/div/div[2]/div[1]/react-partial/div/div/div[3]/div[2]/div/div[2]/article/markdown-accessiblity-table[{tablenumber}]/table的table标签，变量{tablenumber}的值是从3到53，定位每个tr标签，然后提取每个tr标签中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博