小白学大模型：Qwen1.5使用与高效微调

Coggle数据科学 · 公众号 · · 2024-05-09 15:06

文章预览

Qwen1.5 介绍 https://qwenlm.github.io/zh/blog/qwen1.5/ Qwen1.5开源了包括0.5B、1.8B、4B、7B、14B和72B共计6个不同规模的Base和Chat模型，以及一个MoE模型，并同步放出了各尺寸模型对应的量化模型。模型基础能力在不同模型尺寸下，Qwen1.5 都在评估基准中表现出强劲的性能。特别是，Qwen1.5-72B 在所有基准测试中都远远超越了Llama2-70B，展示了其在语言理解、推理和数学方面的卓越能力。最近小型模型的构建也成为了热点之一，将模型参数小于 70 亿的 Qwen1.5 模型与社区中最杰出的小型模型进行了比较。结果如下： unset unset Qwen1.5 使用 unset unset Qwen1.5 最大的不同之处，在于 Qwen1.5 与 HuggingFace transformers 代码库的集成。从 4.37.0 版本开始，您可以直接使用 transformers 库原生代码，而不加载任何自定义代码（指定trust_remote_code选项）来使用 Qwen1.5，像下面这样加载模型： Qwen1. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

汇易咨询 · 印度工厂火灾触发烟酰胺底部回升维生素市场供需平淡难改弱势格局

11 小时前

练瑜伽 · 两个女儿出道都被嫌丑，亚洲第一帅基因太谜了

14 小时前

申工社 · 男子做了20个俯卧撑“肺炸了”、小伙脱发看到了头皮…都是因为做了这件事！

3 天前

申工社 · 男子做了20个俯卧撑“肺炸了”、小伙脱发看到了头皮…都是因为做了这件事！

3 天前

练瑜伽 · 国货要起飞？千元级音质，久戴不痛，抗风噪，颜值还高！89元/副卖疯了！

3 天前

中国贸仲委 · 【新闻】贸仲代表团在阿拉木图与哈萨克斯坦仲裁协会座谈并交流研讨

3 月前

滨州市场监管 · 滨州市召开市场监管系统春节期间食品安全监管专项行动新闻发布会

1 月前