专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

阿里研究院 · 公众号 · 电商 · 2024-10-21 11:33

主要观点总结

本文介绍了大语言模型评测榜单的注意事项和规则，包括更新周期、参与方式、评测结果的公开性、支持的模型类型等。同时，提供了关于产业之声板块的介绍和推荐阅读的文章列表。

关键观点总结

关键观点1: 大语言模型评测榜单规则

大语言模型评测榜单每两月更新一次，发布时间为下一个双月月初。新模型厂商可在当月25日前申请加入评测。加入评测的结果默认公开，只支持开源或对外提供API服务的商业化模型参与评测。司南团队通过公开采购的方式获取商业API服务进行评测，确保公平性。

关键观点2: 产业之声板块介绍和推荐阅读

产业之声板块汇集行业领袖与企业的真实声音，提供深度洞察的产业策略建议。推荐阅读的文章涉及AI焦虑、AI在电商场景的应用和挑战、智能背后的电能保障、AI驱动的数据要素价值创造新模式等话题。

文章预览

9月大语言模型评测榜单司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测，现公布 2024 年 9 月大语言模型评测榜单！本次榜单囊括了国内外共 30 个大语言模型，包含国内外主流闭源模型和社区开源模型。相较于 7 月榜单，本次榜单的主要更新包括：新增 GPT-4o-20240806, Step-2-16k 万亿参数大模型, Doubao-pro-32k-240828等闭源模型，Qwen2.5系列，Mistral-Small-Instruct-2409，Llama-3.2系列等开源模型。对测试数据集进行了迭代优化，整合了来自 CompassArena 的真实用户提问、最新的维基百科知识，以及涵盖国内外各类数学考试的真实试题等高质量数据来源。月度榜单评测基准司南 OpenCompass 自建的评测榜单，综合评估商业 API 模型和开源模型在语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度，这七个维度可以被进一步细 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博