今天看啥  ›  专栏  ›  Dance with GenAI

AI自动批量下载多页网页保存为PDF

Dance with GenAI  · 公众号  ·  · 2024-10-08 18:52
    

文章预览

工作任务:批量下载腾讯研究院网页 首先找到翻页规律: 首页: https://www. tisi.org/? page_id=28888 第二页: https://www. tisi.org/? page_id=28888 =2 末页: https://www. tisi.org/? page_id=28888 =14 然后在deepseek输入提示词: 你是一个Python编程专家,要完成一个网页保存的脚本,具体步骤如下: 打开网页: https://www. tisi.org/? page_id=28888 = {pagenumber}(参数pagenumber的值是从1到14); 定位网页中所有class="title text-with-shadow"的div标签,定位div标签中的a标签,提取其href属性值,作为网页URL;提取a标签的文本内容,作为网页标题; 用playwright来控制Chrome浏览器,调用Chrome浏览器的“打印-另存为PDF”功能,将这个网页打开,保存为PDF文件,保存在文件夹:F:\研报下载,PDF文件名为网页标题名; 注意: 每一步都要输出信息到屏幕上 网页标题名称中包含“|”等特殊符号,不符合Windows ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览