模型记忆力减少是模型能力涌现的前提？40万Token上下文！无需长度外推技术也能解决上下文长度限制问题了

AI for Research · 公众号 · · 2024-07-23 19:38

文章预览

前言：科研就像一场冒险，而看论文就是你的探险工具！只有通过深入阅读，才能找到宝藏，发现那些意想不到的科研奇遇哦！ 1. 预训练模型的泛化与记忆：追溯预训练数据影响标题： Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data 机构：华盛顿大学、加利福尼亚大学、艾伦AI研究所相关领域：模型结构改进、预训练、指令微调作者： Antonis Antoniades, Xinyi Wang, Yanai Elazar 分析：本研究探讨了大型语言模型(LLMs)如何利用预训练语料库实现其强大能力。通过对不同规模LLMs的n-gram分析，研究者发现随着模型规模增大，与任务相关的数据变得更加重要。这导致任务性能提升、记忆减少、泛化能力增强，以及涌现能力出现。研究支持LLMs能力源于在充足任务相关数据基础上，记忆与泛化的平衡这一假设。这为理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博