高效底座模型LLaMA

酷酷的群 · 公众号 · · 2023-06-20 10:17

文章预览

论文标题：LLaMA: Open and Efficient Foundation Language Models 论文链接：https://arxiv.org/abs/2302.13971 论文来源：Meta AI 一、概述大型语言模型（Large Languages Models，LLMs）通过大规模文本数据的训练，展示了其根据文本指令或少量样本完成新任务的能力。这种少数示例的性质首次在规模足够大的模型中出现，导致了一系列聚焦于进一步扩大这些模型的工作。这些努力都是基于一个假设：模型参数越多，性能越好。然而，Hoffmann等人（2022）的近期研究显示，在给定的计算预算下，最佳的性能并非由最大的模型实现，而是由训练数据更多的较小模型实现。 Hoffmann等人（2022）的目标是确定如何最好地根据特定的训练计算预算来调整数据集和模型大小。然而，这个目标忽略了推理预算，这在大规模使用语言模型时变得至关重要。在这种背景下，目标性能水平下的首选模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博