专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

研究人员阐明语言模型在不同算术场景中的泛化机制,可指导大模型训练优化

DeepTech深科技  · 公众号  · 科技媒体  · 2024-12-01 15:32
    

文章预览

尽管大语言模型已经在许多任务中表现出色,但它们在超出训练集分布泛化方面的能力仍然未被充分理解。例如,在自然语言处理中,大语言模型在某些泛化任务中的确表现优异,但在其他任务中可能会产生事实性错误或误导性信息。 近日,上海人工智能实验室徐兴成研究员与包括上海科技大学张海鹏、赵梓博以及复旦大学杨燕青在内的合作者,通过一套统一的理论框架阐明了基于 Transformer 的语言模型在不同算术场景中的泛化机制,并揭示了任务属性和训练数据对于模型表现的决定性作用。这能帮助人们更好地理解模型泛化行为,还为更高效的数据训练以及更优的人工智能对齐提供指导。 首先,本次成果将能指导模型训练优化。通过对训练数据质量和覆盖范围加以分析,可以更好地理解向内和向外泛化的影响,从而优化训练数据的选择和使用, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览