专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
今天看啥  ›  专栏  ›  歸藏的AI工具箱

RewardBench 推出了一个专注于奖励模型的测试基准和排行-20240528145736

歸藏的AI工具箱  · 微博  ·  · 2024-05-28 14:57
2024-05-28 14:57 本条微博链接 RewardBench 推出了一个专注于奖励模型的测试基准和排行榜。#ai# 有趣的是这个榜单上有好几个专注于奖励模型的 Llama3 8B 超过了 GPT-4。REWARDBENCH:用于评估的基准数据集和代码库,以增强对奖励模型的科学理解。REWARDBENCH数据集包含聊天、推理和安全性的提示-胜-负三元组,用于测试奖励模型在应对复杂、结构化和分布外查询时的表现。还创建了特定的比较数据集,这些数据集中存在微妙但可验证的原因(如错误、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照