专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

研究人员提出模糊推理基准“青蛙”,助力理解大模型推理机制

DeepTech深科技  · 公众号  · 科技媒体  · 2024-12-03 17:49
    

文章预览

对于 GPT-4 和 Claude-3.5 等大模型来说,它们已经给人类的生产生活带来了极大帮助。同时,也给这些大模型的能力上限留下了广阔的想象空间:即大模型究竟能完成多有挑战性的任务? 对于大模型能力一个直观的评估纬度便是推理能力。当前,对于推理能力的评估主要集中在精确推理,例如形式较为规范的数学推理和代码推理。 对于日常生活中广泛存在的含有模糊或不精确信息的推理问题当前的模型涉猎不足,例如“桌上有十个苹果,我拿走了一些,此时桌上还剩下多少苹果?”。 其中,一些(some)“大部分(most)”等通用量词(Generalized quantifier,以下简称“量词”)是一种常见的模糊表述方式。其特征是量词的强度通常是不精确的,例如“大部分”表示为一个超过一半的数量。 先前的工作曾通过引入模糊逻辑等方式,对于量词的强度进行建 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览