2024-07-17 05:19
本条微博链接
提出了FLAMe系列模型,通过大规模开源人类评估数据的多任务训练,使其成为高效通用的LLM自动评估器,并通过尾区微调策略进一步优化了其在特定任务上的表现。
[CL]《Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation》T Vu, K Krishna, S Alzubi, C Tar... [Google DeepMind Google]
………………………………