一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习自然语言处理

小数据,大突破!揭秘仅0.3B个token如何让8B模型逼近GPT-4,长文本开源新纪元

深度学习自然语言处理  · 公众号  ·  · 2024-10-25 15:29

文章预览

作者: 汤泽成 (知乎:ZetangForward) 链接: https://zhuanlan.zhihu.com/p/2993874959 当前,越来越多的研究指出,长文本模型(Long-context Model, LCM)在输出时可能会遇到多种问题,其中最为突出的是幻觉(Hallucination)和指令不遵循(Instruction Unfollowing)现象。以下面的示例来说明: 图1:长文本模型幻觉(Hallucination)与指令跟随失效(Instruction Unfollowing)问题 首先,模型会接收到一段详细的背景信息,例如关于美剧《老友记》(Friends)的某个情节的描述。然后,可能会有用户提出这样的问题:“在《老友记》中,Rachel和Monica的职业分别是什么?”根据背景信息, 正确的回答应该是Rachel是一名服务员(waitress),而Monica是一名厨师(chef) 。然而,长文本模型有时会出现幻觉现象,错误地告诉你Rachel是一名护士(nurse),或者完全忽视问题,转而讲述一段毫不相关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章