B站开源长文本大模型：我很小但很能“装”

哔哩哔哩技术 · 公众号 · · 2024-09-18 12:00

文章预览

一、“2% GPT size, yet powerful.” 模型简介 Index-1.9B-32K 是一个拥有 1.9B （19亿）参数并具备 32K 上下文长度的语言模型（这意味着，这个超小精灵可以一次性读完 3.5 万字以上的文档）。在多项长文本评测任务中，该模型在相近尺寸的模型中表现突出。以极小的体积和算力开销（仅仅约为 GPT-4 的 2%），实现了出色的长文本处理能力。如下图所示，我们的 1.9B 模型得分甚至远超 7B 大小的模型。以下是与 GPT-4、千问Qwen2 等模型的对比： Index-1.9B-32K与GPT-4、Qwen2等模型长文本能力对比该模型针对 32K 长文本进行了持续预训练（Continue Pre-Training）和监督微调（SFT），训练数据主要来源于我们精心清洗的长文本预训练语料以及自建的长文本指令集。 Github上模型、技术报告等下载代码、模型、技术报告、运行工具下载地址： https://github.com/bilibili/Index-1.9B （⭐️ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

最英国 · 外国妹子点了杯星巴克焦糖星冰乐，突然感觉吸到了诡异的东西，开盖后一整个震惊…

22 小时前

英国大家谈 · 视频号平台开放广告投放啦！

3 天前

中国证券报 · 事关互联网保险纠纷！法院明确

7 月前

上海科技 · 【新能源】氢能产业手拉手，向世界输出中国解决方案！这场重磅行业盛会圆满收官→

7 月前

E旅行网 · 【单身航放票，挤牙膏那种】多城联运，国庆大阪1K！首尔再跌，往返含税只要900+

6 月前