专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM开源模型】LLMs-Qwen2-通关攻略笔记v2.0

AINLP  · 公众号  ·  · 2024-08-01 22:09
    

文章预览

【导读】:本文是LLM开源模型解析第二篇,介绍Qwen2系列的开源报告 QWEN2 TECHNICAL REPORT, 其中会涉及Qwen2 核心总结,模型架构(Dense,MoE),模型预训练(基本预训练,长文本训练),模型后训练(微调数据构造,SFT,RLHF-DPO),模型评估,模型推理等。 开源报告-Qwen系列 【1】Qwen2相关技术报告 Qwen2报告:QWEN2 TECHNICAL REPORT 报告地址:https://arxiv.org/pdf/2407.10671 Code:https://github.com/QwenLM/Qwen2 Qwen1报告: QWEN_TECHNICAL_REPORT 报告地址: https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf Qwen-blog : https://qwenlm.github.io/blog/qwen/ Qwen1.5-blog : https://qwenlm.github.io/blog/qwen1.5/ Qwen2-blog: https://qwenlm.github.io/blog/qwen2/ 核心总结- Qwen2 【1】Qwen2核心总结 【Qwen2模型结构改进】 Self-Attention:使用GQA-之前是MHA 。 输入上下文长度:32k( 0.5B和1.5B  ) +128k(7B和72B) , 提出MoE模型Qwen-57B-A14B, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览