一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

深度学习自然语言处理  · 公众号  ·  · 2024-12-18 11:45
    

文章预览

来自:机器之心 LLM所有 细分方向 群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入! 论文一作为之江实验室研究专家、香港中文大学在职博士李蓝青,指导老师为香港中文大学计算机科学与工程系王平安 (Pheng Ann Heng) 教授。同济大学硕士生张海为共同第一作者,指导老师赵君峤教授为论文通讯作者。 现如今,以 GPT 为代表的大语言模型正深刻影响人们的生产与生活,但在处理很多专业性和复杂程度较高的问题时仍然面临挑战。在诸如药物发现、自动驾驶等复杂场景中,AI 的自主决策能力是解决问题的关键,而如何进行决策大模型的高效训练目前仍然是开放性的难题。 强化学习(RL)作为一种经典的时序决策模型的训练方法,势必成为决策大模型训练及微调的核心技术之一。而由于任务和数据的复杂性,我们希望模型在训练时能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览