专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepMind指出「Transformer无法超出预训练数据实现泛化」，但有人投来质疑

计算机视觉研究院 · 公众号 · · 2023-11-12 19:34

文章预览

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID ｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2311.00871.pdf 计算机视觉研究院专栏 Column of Computer Vision Institute 难道 Transformer 注定无法解决「训练数据」之外的新问题？说起大语言模型所展示的令人印象深刻的能力，其中之一就是通过提供上下文中的样本，要求模型根据最终提供的输入生成一个响应，从而实现少样本学习的能力。这一点依靠的是底层机器学习技术「Transformer 模型」，并且它们也能在语言以外的领域执行上下文学习任务。以往的经验表明，对于在预训练混合体中得到充分体现的任务族或函数类，选择适当函数类进行上下文学习的成本几乎为零。因此有研究者认为，Transformer 能很好地泛化与训练数据相同分布的任务 / 函 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博