文章预览
2024年6月7日 阿里发布了最新的Qwen2系列模型: https://qwenlm.github.io/zh/blog/qwen2/ https://github.com/QwenLM/Qwen2 已在Hugging Face和ModelScope上同步开源 https://huggingface.co/Qwen https://modelscope.cn/organization/qwen Introduction 发布了5种尺寸的预训练及微调模型, Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, and Qwen2-72B; 在中英文的基础上,训练数据中增加了27种语言的数据 在多个评测基准上表现优异 在代码和数学能力上显著提升 上下文长度扩展到128K tokens(Qwen2-72B-Instruct),其他版本的上下文 Stable support of 32K Supporting tool use, RAG, role play, and playing as AI agent; Model Information ❝ It is based on the Transformer architecture with SwiGLU activation, attention QKV bias, group query attention, etc.Additionally, we have an improved tokenizer adaptive to multiple natural languages and codes. 在Qwen1.5系列中,只有32B和110B的模型使用了GQA。而Qwen2
………………………………