文章预览
【导读】:本文是 LLM知识点 第一篇, 整理了10个Transformer面试 相关 知识! 【1】为何现在的主流的LLM模型大部分是Decoder only结构? 【1】为何现在的主流的LLM模型大部分是Decoder only结构? 引用知乎Sam多吃香菜的回答: 1.用过去研究的经验说话,decoder-only的泛化性能更好, 在最大5B参数量、170B token数据量的规模下做了一系列实验, 发现用next token prediction预训练的decoder-only模型在各种下游任务上zero-shot泛化性能最好; 另外,许多工作表明decoder-only模型的few-shot(即上下文学习,in-context learning)泛化能力更强,参见论文[2]和 @Minimum 大佬 回答 的第3点。 zero-shot的表现:decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好。而
………………………………