文章预览
前言: 科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦! 1. 100 instances is all you need:通过在少量实例上测试预测新LLM在未见数据上的成功 标题: 100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances 相关领域: 模型评估 作者: Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo 分析: 论文探讨了如何预测大型语言模型的个体任务表现,实现高可靠性和高效评估。研究提出了一种方法,通过评估模型在少数参考实例上的表现,训练一个通用的评估器,预测模型在其他实例上的表现。实验在HELM-Lite和KindsOfReasoning数据集上进行,使用OpenAI模型评估了不同版本的GPT,结果表明,使用同一分布的少量实例训练的评估器,预测性能与使用大量实例训
………………………………