专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

研究人员阐明语言模型在不同算术场景中的泛化机制，可指导大模型训练优化

DeepTech深科技 · 公众号 · 科技媒体 · 2024-12-01 15:32

文章预览

尽管大语言模型已经在许多任务中表现出色，但它们在超出训练集分布泛化方面的能力仍然未被充分理解。例如，在自然语言处理中，大语言模型在某些泛化任务中的确表现优异，但在其他任务中可能会产生事实性错误或误导性信息。近日，上海人工智能实验室徐兴成研究员与包括上海科技大学张海鹏、赵梓博以及复旦大学杨燕青在内的合作者，通过一套统一的理论框架阐明了基于 Transformer 的语言模型在不同算术场景中的泛化机制，并揭示了任务属性和训练数据对于模型表现的决定性作用。这能帮助人们更好地理解模型泛化行为，还为更高效的数据训练以及更优的人工智能对齐提供指导。首先，本次成果将能指导模型训练优化。通过对训练数据质量和覆盖范围加以分析，可以更好地理解向内和向外泛化的影响，从而优化训练数据的选择和使用， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博