专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

增强大模型智能:数学推理能力的提升策略与实践

专知  · 公众号  ·  · 2024-08-26 11:00
    

文章预览

导读   本文将分享如何提升大模型的数学推理能力。我们没有把数学推理能力与翻译、长文本生成等专项分开优化,而是视为通用能力的一部分。因为我们认为数学推理能力是衡量大模型智能水平的关键指标。 主要内容包括以下五个部分: 1.  大语言模型概述 2.  混合指令 3.   合成数据 4.  训练优化 5.  问答环节 分享嘉宾| 文亮 奇虎360  资深算法专家   编辑整理|王甲君 内容校对|李瑶 出品社区| DataFun 01 大语言模型概述 首先来回顾一下大模型的基本结构。上图中列出了当前一些主流大模型,比如 GPT 系列中的 GPT-3,发布于 2020 年,拥有 175B 参数,还有 Huggingface 的 Bloom、清华的 GLM 系列、Meta 的 LLaMA、百川的 Baichuan 和阿里的 Qwen 系列等等。除了清华的 GLM 使用的是 Prefix decoder,这些模型大多采用与 GPT 类似的架构。 这些模型的参数规模各不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览