专栏名称: 哔哩哔哩技术
提供B站相关技术的介绍和讲解
今天看啥  ›  专栏  ›  哔哩哔哩技术

B站开源长文本大模型:我很小但很能“装”

哔哩哔哩技术  · 公众号  ·  · 2024-09-18 12:00

文章预览

一、“2% GPT size, yet powerful.” 模型简介 Index-1.9B-32K 是一个拥有 1.9B (19亿)参数并具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字以上的文档)。 在多项长文本评测任务中,该模型在相近尺寸的模型中表现突出。 以极小的体积和算力开销(仅仅约为 GPT-4 的 2%),实现了出色的长文本处理能力。 如下图所示,我们的 1.9B 模型得分甚至远超 7B 大小的模型。以下是与 GPT-4、千问Qwen2 等模型的对比: Index-1.9B-32K与GPT-4、Qwen2等模型长文本能力对比 该模型针对 32K 长文本进行了持续预训练(Continue Pre-Training)和监督微调(SFT),训练数据主要来源于我们精心清洗的长文本预训练语料以及自建的长文本指令集。 Github上模型、技术报告等下载 代码、模型、技术报告、运行工具 下载地址 : https://github.com/bilibili/Index-1.9B (⭐️ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览