注册
登录
专栏名称:
GitHubStore
分享有意思的开源项目
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
加措上师语录
·
觉悟的勇气:乌巴那哈 制靴的人
·
11 小时前
加措上师语录
·
我们走过的每一条路,其实都是必经之路
·
2 天前
加措上师语录
·
经得起风雨,更要经得起平淡
·
3 天前
加措上师语录
·
怎样不容易遇到违缘
·
3 天前
今天看啥
›
专栏
›
GitHubStore
面向AI应用的网络爬虫和数据提取工具Crawl4AI
GitHubStore
·
公众号
· · 2024-07-13 09:08
文章预览
项目简介 扫码 加入技术交流群,备注 「 开发语言-城市-昵称 」 合作请注明 Crawl4AI 是一个开源 Python 库,简化了网络爬虫和数据提取,使其适用于 LLMs和 AI 应用。 主要特性 ✨ 🆓 完全免费且开源 🤖 适合 LLM 的输出格式(JSON、HTML、Markdown) 🌍 支持同时爬取多个 URL 🎨 提取并返回所有媒体标签(图片、音频和视频) 🔗 提取所有外部和内部链接 📚 提取页面的元数据 🔄 支持自定义钩子进行身份验证、设置头部信息以及在爬取前修改页面 🕵️ 用户代理 (User-agent) 自定义 🖼️ 截取页面屏幕截图 📜 在爬取前执行多个自定义 JavaScript 脚本 📚 各种分块策略:基于主题的、正则表达式的、句子分割等 🧠 高级提取策略:余弦聚类、LLM 等 🎯 支持 CSS 选择器 📝 传递指令/关键词以优化提取过程 快速开始 from crawl4ai import WebCrawler ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
加措上师语录
·
觉悟的勇气:乌巴那哈 制靴的人
11 小时前
加措上师语录
·
我们走过的每一条路,其实都是必经之路
2 天前
加措上师语录
·
经得起风雨,更要经得起平淡
3 天前
加措上师语录
·
怎样不容易遇到违缘
3 天前
山东高速集团
·
山东高速集团承建的兹雷尼亚宁高速公路项目正式启动
3 月前