面向AI应用的网络爬虫和数据提取工具Crawl4AI

GitHubStore · 公众号 · · 2024-07-13 09:08

文章预览

项目简介扫码加入技术交流群，备注「开发语言-城市-昵称」合作请注明 Crawl4AI 是一个开源 Python 库，简化了网络爬虫和数据提取，使其适用于 LLMs和 AI 应用。主要特性 ✨ 🆓 完全免费且开源 🤖 适合 LLM 的输出格式（JSON、HTML、Markdown） 🌍 支持同时爬取多个 URL 🎨 提取并返回所有媒体标签（图片、音频和视频） 🔗 提取所有外部和内部链接 📚 提取页面的元数据 🔄 支持自定义钩子进行身份验证、设置头部信息以及在爬取前修改页面 🕵️ 用户代理 (User-agent) 自定义 🖼️ 截取页面屏幕截图 📜 在爬取前执行多个自定义 JavaScript 脚本 📚 各种分块策略：基于主题的、正则表达式的、句子分割等 🧠 高级提取策略：余弦聚类、LLM 等 🎯 支持 CSS 选择器 📝 传递指令/关键词以优化提取过程快速开始 from crawl4ai import WebCrawler ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博