文章预览
发表在ICLR‘24来自George Mason大学、微软和Virginia Tech的论文“Large Language Model Cascades with Mixture of Thought Representations for Cost- Efficient Reasoning”。 大语言模型(例如 GPT-4)在各种任务中都表现出色,但这种强大的性能往往伴随着使用付费 API 服务的高昂成本。本文致力于研究构建 LLM 级联节省使用 LLM 的成本,尤其是执行推理(例如数学、因果)任务时。级联流水线来自以下的直觉:较简单的问题可以通过较弱但更实惠的 LLM 来解决,而只有挑战性的问题才需要更强大且更昂贵的 LLM。为了实现这种决策,将较弱 LLM 的“答案一致性”视为问题难度的信号,并提出几种答案抽样和一致性检查的方法,包括一种利用两种思维表征的混合方法,即思维链(Wei,2022)和思维程序(Chen,2022;Gao,2023)。在六个推理基准数据集上的实验,其中 GPT-3.5-turbo 和 GPT-4 分别
………………………………