专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM基础知识】LLMs-Transformer面知识总结笔记v1.0

AINLP  · 公众号  ·  · 2024-06-21 19:37

文章预览

【导读】:本文是 LLM知识点 第一篇, 整理了10个Transformer面试 相关 知识!                                                                                            【1】为何现在的主流的LLM模型大部分是Decoder only结构? 【1】为何现在的主流的LLM模型大部分是Decoder only结构? 引用知乎Sam多吃香菜的回答: 1.用过去研究的经验说话,decoder-only的泛化性能更好, 在最大5B参数量、170B token数据量的规模下做了一系列实验, 发现用next token prediction预训练的decoder-only模型在各种下游任务上zero-shot泛化性能最好; 另外,许多工作表明decoder-only模型的few-shot(即上下文学习,in-context learning)泛化能力更强,参见论文[2]和  @Minimum  大佬 回答 的第3点。 zero-shot的表现:decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好。而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览