专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?

AI前线  · 公众号  · AI  · 2024-08-14 04:00

文章预览

整理 | 李冬梅 褚杏娟 大家期待中的 OpenAI 与谷歌“大战”并未如约而至,双方都打出了“毫无杀伤力”的棉花拳。 以为能等到“草莓”,没想到来了个“羽衣甘蓝” 尽管全世界都在盯着“草莓计划”,但似乎叛逆的 OpenAI 总是不尽如人愿。你要“草莓”,他们偏偏给你个“羽衣甘蓝”。 北京时间 14 日凌晨 2 点,OpenAI 在其官网上发文称正在发布一个经过人工验证的 SWE-bench 子集,该子集可以更可靠地评估 AI 模型解决现实世界软件问题的能力。 SWE-bench Hugging Face 地址: https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified 作为准备框架的一部分(准备框架是 OpenAI 设立的一套安全地开发和部署其前沿模型的方法),OpenAI 开发了一系列指标来跟踪、评估和预测模型的自主行动能力。 一直以来,自主完成软件工程任务的能力是前沿模型自主风险类 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览