欢迎你来到深度学习算法与计算机视觉,这是一个专注于深度学习算法的公众号,是一个程序员分享心得体会的平台,欢迎加入我们的大家庭。添加个人账号:DL-CVer-RogerLi进入群聊,共同进步
今天看啥  ›  专栏  ›  深度学习算法与计算机视觉

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

深度学习算法与计算机视觉  · 公众号  ·  · 2024-06-04 00:00
    

文章预览

深度学习算法与计算机视觉 | 分享 来源丨机器之心 乘法和排序也有效。 自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。 但所有研究者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。 为了解决这个问题,来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战,他们通过在每个数字中添加一个嵌入来解决这个问题,该嵌入编码数字相对于开头的位置。该研究发现,只用一天时间在单个 GPU 上训练 20 位数字,就可以达到最新的性能水平,100 位数字加法问题高达 99% 的准确率。 论文地址:https://arxiv.org/pdf/2405.17399 项目地址:https://github.com/mcleish7/arithmetic 标题:Transformers Can Do Arithmetic with the Right Embeddings 具体而言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览