专栏名称: GitHubStore
分享有意思的开源项目
今天看啥  ›  专栏  ›  GitHubStore

面向AI应用的网络爬虫和数据提取工具Crawl4AI

GitHubStore  · 公众号  ·  · 2024-07-13 09:08
    

文章预览

项目简介 扫码 加入技术交流群,备注 「 开发语言-城市-昵称 」 合作请注明   Crawl4AI 是一个开源 Python 库,简化了网络爬虫和数据提取,使其适用于 LLMs和 AI 应用。 主要特性 ✨  🆓 完全免费且开源  🤖 适合 LLM 的输出格式(JSON、HTML、Markdown) 🌍 支持同时爬取多个 URL  🎨 提取并返回所有媒体标签(图片、音频和视频)  🔗 提取所有外部和内部链接  📚 提取页面的元数据  🔄 支持自定义钩子进行身份验证、设置头部信息以及在爬取前修改页面  🕵️ 用户代理 (User-agent) 自定义  🖼️ 截取页面屏幕截图  📜 在爬取前执行多个自定义 JavaScript 脚本  📚 各种分块策略:基于主题的、正则表达式的、句子分割等  🧠 高级提取策略:余弦聚类、LLM 等  🎯 支持 CSS 选择器  📝 传递指令/关键词以优化提取过程 快速开始 from crawl4ai import WebCrawler ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览