专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

Qwen2.5系列模型论文发布:数学、代码、多模态全揭秘!长上下文扩展和大模型泛化的研究....

AI for Research  · 公众号  ·  · 2024-09-19 20:22

文章预览

前言: 如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”! 1. Qwen2.5系列数学专家模型:自我提升的实现之路技术报告   标题: Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement   机构: 阿里巴巴集团   相关领域: 模型结构改进、预训练、指令微调   作者: An Yang,  Beichen Zhang,  Binyuan Hui   分析: 该论文介绍了一种新型数学大型语言模型——Qwen2.5系列数学专家模型。该模型的核心创新在于引入了自我提升的理念,在预训练、后训练和推理阶段都进行了优化。通过生成大规模高质量的数学数据,并利用奖励模型进行迭代优化,该模型在多种数学数据集上表现出强大的性能。   地址: https://arxiv.org/pdf/2409.12122 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览