文章预览
当下,如何做好一个LLM应用有很多策略,但是要说如何评估它好不好,这方面技术却并不是很多。这里有一张图,来指导我们何种情况采取何种策略。 如果已经有手工标注的评估集了那还好说,但大多数没有, 并且,这种依赖人类专家手工打标来评估LLM应用性能,既费时又费力。那么,有没有什么方法可以让助手自己学会评估自己的回答呢?最近,Meta FAIR一项新的研究提出了一种创新的方法,让大型语言模型(LLM)评估器能够自我学习和提升,而无需依赖昂贵的人工标注数据。这个方法的核心是使用合成数据和迭代自改进技术。 挑战:昂贵且过时的人工标注数据 通常,训练 LLM 评估器需要大量的人工偏好数据,这既费时又费力。然而,这种方法有两个主要问题: 成本高昂 :获取高质量的人工标注数据需要大量的时间和金钱。 数据过时 :随着模
………………………………