专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
目录
相关文章推荐
IPRdaily  ·  新书见面 | ... ·  3 天前  
今天看啥  ›  专栏  ›  AI大模型学习基地

掩码语言模型处理开放式的长文本生成问题

AI大模型学习基地  · 公众号  ·  · 2024-07-28 00:37

文章预览

论文探讨了预训练的掩码语言模型 在开放式长文本生成 领域的潜力,以及如何克服其在处理长文本时的局限性。通常自回归 语言模型如 BART 和 GPT 系列在这一领域占据主导地位,但它们在生成长度增加时推断效率降低的问题限制了应用。为了改善这一状况,研究者们提出使用迭代的非自回归( Non-Autoregressive, NAR )解码策略,并结合两种方法——动态滑动窗口注意力( Dynamic Sliding Window Attention, DSWA )和线性温度衰减( Linear Temperature Decay, LTD ),来增强 MLMs 的长文本生成能力。在故事叙述和多段落意见文章撰写等任务中,预训练的 MLMs 不仅能够达到 3 到 13 倍的加速,同时还能保持甚至优于强大的自回归模型的表现。 1 动态滑动窗口注意力 ( 1 ) 动机: 在长文本生成中,传统的自注意力机制允许每个 token 关注整个上下文序列,这可能导致信息过载 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览