专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【ICLR2025】LLMS能否识别您的偏好?评估LLMS中的个性化偏好遵循能力

数据派THU  · 公众号  · 大数据  · 2025-02-20 17:00
    

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们提出了 PREFEVAL ,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。 大语言模型(LLMs)越来越多地被用作聊天机器人,但其在根据用户偏好个性化响应方面的能力仍然有限。我们提出了 PREFEVAL ,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。PREFEVAL包含3,000对人工整理的用户偏好和查询对,涵盖20个主题。PREFEVAL以显式和隐式形式包含用户个性化或偏好信息,并通过生成任务和分类任务评估LLM的表现。 利用PREFEVAL,我们在多轮对话中评估了10个开源和专有LLMs的上述偏好遵循能力,上下文长度从短到长(最高达100k标记)。我们通过多种提示方法、迭代反馈和检索增强生成方法进行了基准测试。我们的基准测试表明,最先进的LLMs在主 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览