仅用50行正则就能切分“任何文档”的精妙分词器，简单好用，性能强劲！

AI工程化 · 公众号 · · 2024-08-17 13:01

文章预览

Jina 公司的 CEO 肖涵在 GitHub 上分享了一个令人印象深刻的代码片段 [1] ，这段代码是 Jina tokenizer 中使用的核心分词实现。这个正则表达式代码片段仅用了 50 余行，却能够高效地处理各种复杂度的文本内容进行分块。其性能之强劲令人惊讶，解析整本《爱丽丝梦游仙境》仅用了 2 毫秒，便产生了 1,204 个文本块。 const chunkRegex = new RegExp( "(" + // 1. Headings (Setext-style, Markdown, and HTML-style, with length constraints) `(?:^(?:[ #*=-]{1,${MAX_HEADING_LENGTH}}|\\w[^\\r\\n]{0,${MAX_HEADING_CONTENT_LENGTH}}\\r?\\n[-=]{2,${MAX_HEADING_UNDERLINE_LENGTH}}| ]{0,${MAX_HTML_HEADING_ATTRIBUTES_LENGTH}}>)[^\\r\\n]{1,${MAX_HEADING_CONTENT_LENGTH}}(?: )?(?:\\r?\\n|$))` + "|" + // New pattern for citations `(?:\\[[0-9]+\\][^\\r\\n]{1, ${MAX_STANDALONE_LINE_LENGTH} })` + "|" + // 2. List items (bulle ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

气象北京 · 2024年国庆假期天气预报

昨天

气象北京 · 征集开始啦|寻找门头沟区最美气象景观

3 天前

北京亦庄 · 国庆期间，亦庄火车站正式开通

5 天前

北京亦庄 · 全国人大北京团代表到经开区等区开展专题调研

5 天前

体坛周报 · 聚焦 | 网坛05后第一人！19岁的商竣程还能带来多少惊喜？

5 天前

文名 · 为什么这篇致辞，让读者强烈共鸣？只因这三个故事的立意构思，太赞了！

1 周前