文章预览
大家好,我是刘聪NLP。 Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了。 是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括:0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型。 本次全是Dense模型,没有MoE模型。 同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。 还开了GGUF、GPTQ和AWQ 3种量化模型,别问,就是服务到位,主打一个“全”。 你有Llama3.1,我有Qwen2.5,请问阁下如何应对。 下面从模型说明、效果说明、 Qwen2.5-72B实测 、快速使用等几个方面来介绍一下刚刚开源的Qwen2.5系列模型。 Blog: https://qwenlm.github.io/blog/qwen2.5/ HF: https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e 模型介绍 训练数据从Qwen2的7T Tokens 扩展到了Qwen2.5的18T tokens。 上下文最大长度128K,其中超过32K的部分利用YARN来进行外推处理,并且 最大生成长度8K(从1K
………………………………