专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ICLR 2025 | 场景感知的多维度大模型评估器

将门创投  · 公众号  · 科技创业  · 2025-03-19 08:22
    

文章预览

本文提出SaMer,一种场景感知的多维度评估器,可对大模型生成的响应进行细粒度、可解释的评估。SaMer动态识别并优先考虑不同query场景的关键维度,相比固定维度方法,更具情境敏感性。实验表明,SaMer在单一评分与成对比较任务上优于现有基准,并通过维度级得分和权重提供透明评估。 论文题目: SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models  论文链接: https://openreview.net/forum?id=aBnVU5DL3I 代码链接: https://github.com/Irving-Feng/SaMer/ 一、引言 在开放式的自然语言生成任务中,评估大型语言模型(LLMs)的响应质量是一项重大挑战,主要原因在于“质量”的主观性和多维性。现有的LLM评估方法大多采用固定维度的评估标准,无法根据具体场景灵活调整,导致难以满足不同类型问题的需求。 为了解决这一问题,我们提出了SaMer,一个场景感 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览