专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
今天看啥  ›  专栏  ›  阿里研究院

司南 OpenCompass 9 月榜单揭晓!开源模型首次占据榜首!

阿里研究院  · 公众号  · 电商  · 2024-10-21 11:33
    

主要观点总结

本文介绍了大语言模型评测榜单的注意事项和规则,包括更新周期、参与方式、评测结果的公开性、支持的模型类型等。同时,提供了关于产业之声板块的介绍和推荐阅读的文章列表。

关键观点总结

关键观点1: 大语言模型评测榜单规则

大语言模型评测榜单每两月更新一次,发布时间为下一个双月月初。新模型厂商可在当月25日前申请加入评测。加入评测的结果默认公开,只支持开源或对外提供API服务的商业化模型参与评测。司南团队通过公开采购的方式获取商业API服务进行评测,确保公平性。

关键观点2: 产业之声板块介绍和推荐阅读

产业之声板块汇集行业领袖与企业的真实声音,提供深度洞察的产业策略建议。推荐阅读的文章涉及AI焦虑、AI在电商场景的应用和挑战、智能背后的电能保障、AI驱动的数据要素价值创造新模式等话题。


文章预览

9月大语言模型评测榜单 司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现公布  2024 年 9 月大语言模型评测榜单 ! 本次榜单囊括了国内外共  30  个大语言模型,包含 国内外主流闭源模型 和 社区开源模型 。 相较于 7 月榜单,本次榜单的主要更新包括: 新增 GPT-4o-20240806, Step-2-16k 万亿参数大模型, Doubao-pro-32k-240828等 闭源 模型,Qwen2.5系列,Mistral-Small-Instruct-2409,Llama-3.2系列等 开源 模型。 对测试数据集进行了迭代优化,整合了来自  CompassArena  的真实用户提问、最新的维基百科知识,以及涵盖国内外各类数学考试的真实试题等高质量数据来源。 月度榜单评测基准 司南 OpenCompass 自建的评测榜单,综合评估商业 API 模型和开源模型在  语言、推理、知识、代码、数学、指令跟随、智能体  七大能力维度,这七个维度可以被进一步细 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览