专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

研究人员打造合成数据,让模型更高效地学习处理长文本能力

DeepTech深科技  · 公众号  · 科技媒体  · 2024-11-04 17:34
    

文章预览

2024 年 2 月,一支科研团队在  Transactions of the Association for Computational Linguistics  上发表了一篇题为《迷失在中间:语言模型如何使用长上下文》( Lost in the Middle:How Language Models Use Long Contexts )的论文。 “Lost in the Middle”是指大模型在处理长文本的时候,如果关键信息出现在开头或结尾的话,那么模型会更容易注意到这些信息。 反之,如果关键信息出现在文本中间,那么模型就会更加容易忽略掉这些信息。因此,大模型的准确率会呈现出 U-型的曲线。 同时,领域内的“Needle-in-a-haystack(大海捞针)”测试也展示了同样的结论:如果在一段长文本中加入一小段关键信息,那么文本越长,模型就越容易忽略掉手动嵌入的信息。 为了解决这些问题,目前人们主要使用三种方法: 其一,使用检索增强生成方法,这通常需要一个额外的检索器,从长文本中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览