LLM推理性能受输出格式影响，JSON最严重

量子位 · 公众号 · AI · 2024-08-16 13:04

文章预览

一水发自凹非寺量子位 | 公众号 QbitAI 输出格式不同，竟然还能影响大模型发挥？！两种提示下让大语言模型（LLMs）解同一道数学题，问题如下： Eliza每周工作的前40小时，每小时的工资是10美元，加班费每小时x1.2。如果Eliza这周工作了45小时，她这周的收入是多少？思维链prompt ：“按照以下格式提供输出，逐步推理：…回答：最终答案是…”。格式限制prompt ：“按照以下有效的JSON格式提供输出：… （具体JSON格式见图） “。正确答案是 460 ，可以看出，思维链（让模型一步步思考）奏效，格式限制（“以JSON格式输出”）却失败了！！这是台湾大学和Appier AI Research新研究中的一幕，他们发现—— 格式限制这玩意儿会降低LLMs的推理能力，且限制越严推理越差。（主打一个叛逆）不过好消息是，能治。他们发现，最佳解决方案是搞个“二 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[128星]TGV：在终端中探索基因组的神器，轻量级、极速体验-20250407201935

昨天

爱可可-爱生活 · 【[48星]VoiceStar：一款强大的语音合成工具，能够实现-20250407194100

昨天

爱可可-爱生活 · 【[238星]VectorCode：为你的LLM体验加速的代码仓-20250406165249

2 天前

爱可可-爱生活 · 【[449星]ClaraVerse：隐私优先的客户端AI助手，为-20250406165401

2 天前

人工智能那点事 · 包括小米SU7事故路段，多地高速突然出现！最新回应……

2 天前

小木虫 · 揭晓！41位科学家荣获第十五届光华工程科技奖

9 月前

杭州发布 · 一口就是整个秋天！不少灵市面的杭州人已经吃上！哪款是你的爱？

6 月前

杭州发布 · 一口就是整个秋天！不少灵市面的杭州人已经吃上！哪款是你的爱？

6 月前