专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

小数据，大突破！揭秘仅0.3B个token如何让8B模型逼近GPT-4，长文本开源新纪元

深度学习自然语言处理 · 公众号 · · 2024-10-25 15:29

文章预览

作者: 汤泽成 (知乎：ZetangForward) 链接: https://zhuanlan.zhihu.com/p/2993874959 当前，越来越多的研究指出，长文本模型（Long-context Model, LCM）在输出时可能会遇到多种问题，其中最为突出的是幻觉（Hallucination）和指令不遵循（Instruction Unfollowing）现象。以下面的示例来说明：图1：长文本模型幻觉（Hallucination）与指令跟随失效（Instruction Unfollowing）问题首先，模型会接收到一段详细的背景信息，例如关于美剧《老友记》（Friends）的某个情节的描述。然后，可能会有用户提出这样的问题：“在《老友记》中，Rachel和Monica的职业分别是什么？”根据背景信息，正确的回答应该是Rachel是一名服务员（waitress），而Monica是一名厨师（chef）。然而，长文本模型有时会出现幻觉现象，错误地告诉你Rachel是一名护士（nurse），或者完全忽视问题，转而讲述一段毫不相关 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博