【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

数据派THU · 公众号 · 大数据 · 2025-02-20 17:00

文章预览

来源：专知本文约1000字，建议阅读 5 分钟我们提出了 PREFEVAL ，这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。大语言模型（LLMs）越来越多地被用作聊天机器人，但其在根据用户偏好个性化响应方面的能力仍然有限。我们提出了 PREFEVAL ，这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。PREFEVAL包含3,000对人工整理的用户偏好和查询对，涵盖20个主题。PREFEVAL以显式和隐式形式包含用户个性化或偏好信息，并通过生成任务和分类任务评估LLM的表现。利用PREFEVAL，我们在多轮对话中评估了10个开源和专有LLMs的上述偏好遵循能力，上下文长度从短到长（最高达100k标记）。我们通过多种提示方法、迭代反馈和检索增强生成方法进行了基准测试。我们的基准测试表明，最先进的LLMs在主 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

CDA数据分析师 · Deepseek来袭，数据分析师会失业吗？

昨天

数据派THU · 【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

昨天

Vista看天下 · 99元随便喝，中产们把葡萄酒吧喝成大排档

5 月前

X-MOL资讯 · 浙江大学“智能电化学微反应过程”课题组诚招博士后

4 月前

一条 · 会发热的“火山泥”保暖内衣，7A级抗菌，有磨毛更亲肤

3 月前

酷玩实验室 · 猛销上万吨！个个比巴掌大的「进口黑虎虾」，狠狠抓住了中国人的胃！

1 月前