今天看啥  ›  专栏  ›  AI for Research

模型记忆力减少是模型能力涌现的前提?40万Token上下文!无需长度外推技术也能解决上下文长度限制问题了

AI for Research  · 公众号  ·  · 2024-07-23 19:38

文章预览

前言: 科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦! 1. 预训练模型的泛化与记忆:追溯预训练数据影响   标题: Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data   机构: 华盛顿大学、加利福尼亚大学、艾伦AI研究所   相关领域: 模型结构改进、预训练、指令微调   作者: Antonis Antoniades,  Xinyi Wang,  Yanai Elazar   分析: 本研究探讨了大型语言模型(LLMs)如何利用预训练语料库实现其强大能力。通过对不同规模LLMs的n-gram分析,研究者发现随着模型规模增大,与任务相关的数据变得更加重要。这导致任务性能提升、记忆减少、泛化能力增强,以及涌现能力出现。研究支持LLMs能力源于在充足任务相关数据基础上,记忆与泛化的平衡这一假设。这为理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览