文章预览
论文探讨了预训练的掩码语言模型 在开放式长文本生成 领域的潜力,以及如何克服其在处理长文本时的局限性。通常自回归 语言模型如 BART 和 GPT 系列在这一领域占据主导地位,但它们在生成长度增加时推断效率降低的问题限制了应用。为了改善这一状况,研究者们提出使用迭代的非自回归( Non-Autoregressive, NAR )解码策略,并结合两种方法——动态滑动窗口注意力( Dynamic Sliding Window Attention, DSWA )和线性温度衰减( Linear Temperature Decay, LTD ),来增强 MLMs 的长文本生成能力。在故事叙述和多段落意见文章撰写等任务中,预训练的 MLMs 不仅能够达到 3 到 13 倍的加速,同时还能保持甚至优于强大的自回归模型的表现。 1 动态滑动窗口注意力 ( 1 ) 动机: 在长文本生成中,传统的自注意力机制允许每个 token 关注整个上下文序列,这可能导致信息过载
………………………………