文章预览
🏫 团队: Tsinghua University, Hong Kong University of Science and Technology, Peking University 🌐 来源: ICLR2024 📝 文章简介 🔺 背景: 文本评估一直是自然语言处理领域的一大挑战,传统方法主要依赖人工标注文本,但成本和时间需求过高。随着大型语言模型(LLMs)的出现,研究者开始探索使用LLMs作为人工评估的替代方案。然而,单体LLM方法在效力和人类评估质量之间仍存在差距。 🔗 文章观点与做法: 本文提出了一种基于多智能体辩论框架的ChatEval系统,旨在通过多智能体之间的协作讨论,更有效地评估文本质量。ChatEval利用多个LLM智能体,每个智能体扮演不同的角色,并采用不同的沟通策略,共同讨论和评估生成响应的质量。 💡 结论: ChatEval在两个基准测试任务上表现优于单体LLM方法,显示出其在文本评估方面的优越性和可靠性。实验结果表明,ChatEval能够提
………………………………