哈工大开源“活字3.5”对话大模型

赛尔实验室 · 公众号 · 程序员 · 2024-09-12 16:15

主要观点总结

本文介绍了哈尔滨工业大学社会计算与信息检索研究中心的最新成果——活字3.5自然语言处理模型。该模型是在活字3.0和Chinese-Mixtral-8x7B基础上进一步增强的模型，支持32K长上下文，并在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等方面实现了性能提升。文章还介绍了模型的训练过程、性能评测、生成样例、结语、开源协议、引用和参考文献。

关键观点总结

关键观点1: 活字3.5模型的特点和优势

活字3.5模型是在活字3.0基础上进一步增强的模型，具有强大的自然处理能力。它支持32K长上下文，并在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等方面实现了性能提升。此外，该模型还具有稀疏混合专家模型（SMoE）的结构特点，有效提升了计算效率和处理速度。

关键观点2: 模型的训练过程

活字3.5模型的训练过程包括多个步骤，包括中文扩词表增量预训练、基于Chinese-Mixtral-8x7B的微调、使用活字1.0数据集进行指令微调、强化指令遵循能力、模型融合以及融合后训练等。

关键观点3: 模型的性能评测

活字3.5模型在多个评测数据集上进行了性能评测，包括C-Eval、CMMLU、MMLU等。测试结果显示，活字3.5在推理时仅激活13B参数，相对于活字3.0取得了较稳定的性能提升。

文章预览

一、介绍大规模语言模型（LLM）在自然语言处理领域取得了显著的进展，并在广泛的应用场景中展现了其强大的潜力。这一技术不仅吸引了学术界的广泛关注，也成为了工业界的热点。在此背景下，哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）近期推出了最新成果—— 活字3.5 ，致力于为自然语言处理的研究和实际应用提供更多可能性和选择。活字3.5训练过程活字3.5 是在活字 3.0 和 Chinese-Mixtral-8x7B 基础上，进行进一步性能增强得到的模型。活字3.5 支持 32K长上下文，继承了活字3.0强大的综合能力，并在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等诸多方面实现了性能提升。我们的模型发布于：https://github.com/HIT-SCIR/huozi 模型结构活字3.5是一个稀疏混合专家模型（SMoE），每个专家层包含8个FFN，每次前向计算采 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博