专栏名称: Dance with GenAI
关于生成式人工智能AIGC的一切
今天看啥  ›  专栏  ›  Dance with GenAI

AI网络爬虫:批量下载某个网页中的全部链接

Dance with GenAI  · 公众号  ·  · 2024-07-01 06:51

文章预览

网页如下,有多个链接: 找到其中的a标签: https://cloud.tencent.com/docum ent/product/1093/35681 " title="产品优势"> 产品优势 在deepseek中输入提示词: 你是一个Python编程专家,要完成一个百度搜索页面爬取的Python脚本,具体任务如下: 解析网页: https:// cloud.tencent.com/docum ent/product/1093 定位class="rno-learning-path-wrap"的div标签; 然后定位div标签中所有a标签,提取title属性值作为网页文件名,提取href属性值作为网页下载地址,下载网页,保存网页到文件夹:F:\aivideo\腾讯云语音识别 注意: 每一步都要输出信息到屏幕上 每下载一个网页后,随机暂停3-6秒; 设置请求标头: Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 Accept-Encoding: gzip, deflate, br, zstd Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6 Cache-Con ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览