今天看啥  ›  专栏  ›  GitHubStore

magic-html : 通用HTML数据提取器

GitHubStore  · 公众号  ·  · 2024-09-14 17:45

文章预览

项目简介 magic-html提供了一套工具,能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页,这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。 特点 返回主体区域html结构,可自定义输出纯文本/markdown 支持多模态抽取 支持多种版面extractor,文章/论坛 支持latex公式提取转换 安装 pip install https: / /github.com/opendatalab /magic-html/releases /download/magic _html- 0 . 1.2 -released/magic_html- 0 . 1.2 -py3-none-any.whl 使用 from magic_html import GeneralExtractor # 初始化提取器 extractor = GeneralExtractor() url = "http://example.com/" html = """ < html > < head > < title > Example Domain title > < meta charset = "utf-8" /> < meta http-equiv = "Content-type" content = "text/html; charset=utf-8" /> < meta name = "viewport" content = "width=device-width, initial-scale=1" /> head > < body > < div > ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览