专栏名称: Dance with GenAI
关于生成式人工智能AIGC的一切
目录
相关文章推荐
今天看啥  ›  专栏  ›  Dance with GenAI

AI网络爬虫:ChatGPT调用Playwright爬取动态网页内容

Dance with GenAI  · 公众号  ·  · 2024-09-28 09:18

文章预览

要获取这个网页上的 https:// dang.ai/ai-graveyard 的内容,首先查看翻页逻辑 https:// dang.ai/ai-graveyard? page=1 https:// dang.ai/ai-graveyard? page=2 https:// dang.ai/ai-graveyard? page=3 然后爬取内容的定位: 在ChatGPT输入提示词: 你是一个Python编程专家,要完成一个爬取网页的任务,具体步骤如下: 打开文件夹:F:\aivideo,新建一个Excel文件,文件名为:ai-graveyard.xlsx 用Playwright 打开网页: https:// dang.ai/ai-graveyard? page= {pagenumber},pagenumber从1开始,每次加1,以22结束; 定位网页中所有class="voting-collection-list_item w-dyn-item"的div元素,在div元素中定位class="voting-item-name_text"的a元素,提取其文本内容,写入Excel表格第1列;在div元素中定位class="voting-item-description_text text-style-2lines"的div元素,提取其文本内容,写入Excel表格第2列;定位class="voting-categories_link"的第1个a元素,提取其文本内容 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览