专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

AIGC开放社区 · 公众号 · · 2025-02-19 06:40

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。而SWE-Lancer的测试数据集包含1488个来自Upwork平台上Expensify开源仓库的真实开发任务，并且总价值高达100万美元。也就是说，如果你的大模型能全部答对这些问题，就能像人类一样获得百万年薪。开源地址：https://github.com/openai/SWELancer-Benchmark SWE-Lancer独特测试方法 SWE-Lancer的一个重要创新 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

刀法研究所 · 多地格力电器店变“董明珠健康家”；苹果发布iPhone 16e；京东外卖近20万餐饮商家申请入驻... | 刀法品牌热讯

昨天

刀法研究所 · NIKE与SKIMS推出女性品牌NikeSKIMS；京东、美团为外卖骑手缴纳五险一金；莲花中国总裁致歉... | 刀法品牌热讯

昨天

刀法研究所 · 用情绪价值唤醒打工人，麦当劳能把“早八”时刻做到多透彻？

昨天

刀法研究所 · 认养一头牛十年复盘，从0到50亿背后的3条思考

3 天前

走天涯徐小洋地理数据科学 · 使用 R 语言对扫描文档进行 OCR 并提取表格数据

6 月前