AI自动批量下载多页网页保存为PDF

Dance with GenAI · 公众号 · · 2024-10-08 18:52

文章预览

工作任务：批量下载腾讯研究院网页首先找到翻页规律：首页： https://www. tisi.org/? page_id=28888 第二页： https://www. tisi.org/? page_id=28888 =2 末页： https://www. tisi.org/? page_id=28888 =14 然后在deepseek输入提示词：你是一个Python编程专家，要完成一个网页保存的脚本，具体步骤如下：打开网页： https://www. tisi.org/? page_id=28888 = {pagenumber}(参数pagenumber的值是从1到14)；定位网页中所有class="title text-with-shadow"的div标签，定位div标签中的a标签，提取其href属性值，作为网页URL；提取a标签的文本内容，作为网页标题；用playwright来控制Chrome浏览器，调用Chrome浏览器的“打印-另存为PDF”功能，将这个网页打开，保存为PDF文件，保存在文件夹：F:\研报下载，PDF文件名为网页标题名；注意：每一步都要输出信息到屏幕上网页标题名称中包含“｜”等特殊符号，不符合Windows ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

留学杂志 · 从旅游到留学，圆梦九州大学的他是如何选择路径与储备能力的？

18 小时前

留学杂志 · 从旅游到留学，圆梦九州大学的他是如何选择路径与储备能力的？

18 小时前

北美留学生观察 · 一辈子总要体验一次！七星级酒店澳洲羊毛床褥，又柔软又暖和！

3 天前

北美留学生观察 · 五粮液终于对飞天下手了…

5 天前

OpenMMLab · CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会

4 月前

罗辑思维 · 暴富走播、“假面”摊主、年入上亿，义乌的底色是什么？

1 月前