2024-07-24 05:43
本条微博链接
通过在预训练语料中大规模搜索任务相关n-gram,发现语言模型的记忆与泛化能力随着模型规模的增长而变化,两者之间存在微妙的平衡。
[LG]《Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data》A Antoniades, X Wang, Y Elazar, A Amayuelas, A Albalak, K Zhang, W Y Wang [Universig o
………………………………