文章预览
项目简介 magic-html提供了一套工具,能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页,这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。 特点 返回主体区域html结构,可自定义输出纯文本/markdown 支持多模态抽取 支持多种版面extractor,文章/论坛 支持latex公式提取转换 安装 pip install https: / /github.com/opendatalab /magic-html/releases /download/magic _html- 0 . 1.2 -released/magic_html- 0 . 1.2 -py3-none-any.whl 使用 from magic_html import GeneralExtractor # 初始化提取器 extractor = GeneralExtractor() url = "http://example.com/" html = """ < html > < head > < title > Example Domain title > < meta charset = "utf-8" /> < meta http-equiv = "Content-type" content = "text/html; charset=utf-8" /> < meta name = "viewport" content = "width=device-width, initial-scale=1" /> head > < body > < div >
………………………………