文章预览
机器之心报道 近日,3Blue1Brown 的《深度学习》课程第 7 课更新了,其中通过生动详实的动画展示了 LLM 存储事实的方式。视频浏览量高达 18 万次。 在 3Blue1Brown 刚刚更新的这期视频中,他们用 23 分的视频演示了大型语言模型如何存储和处理信息,主要包括以下部分: L LM 中隐藏的事实是什么 快速回顾 Transformers 示例 多层感知器 计算参数 视频地址: https://www.youtube.com/watch?v=9-Jl0dxWQs8 在演示视频中,3b1b 的作者口齿清晰、语言标准,配合着高清画面,让读者很好地理解了 LLM 是如何存储知识的。 接下来我们就深入 MLP 的细节 为了简单,下面继续通过「乔丹打篮球」这个具体示例进行说明吧。 首先,我们先简单了解一下 Transformer 的工作流程。 Transformer 的训练目标是基于已有 token 预测下一个 token(通常表示词或词组),而每个 token 都关联了一个高维
………………………………