专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯。
今天看啥  ›  专栏  ›  深度学习与NLP

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

深度学习与NLP  · 知乎专栏  ·  · 2024-06-12 12:48
    

文章预览

来源 | 机器之心 ID | almosthuman2014AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。 Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。具体实现步骤包括如下: 首先构建 GPT-2 网络。 然后对其进行优化,以便快速训练。 然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和超参数。 然后进行模型评估。 然后祈祷好运,并去睡觉。 第二天早上,查看结果并享受有趣的模型生成。通宵运行的结果甚至非常接近 GPT-3(124M)模型。 该视频以「Zero To Hero」系列视频为基础,有些地方参考了以往视频。你可以根据该视频构建 nanoGPT 存储库,到最后大约有 90% 相似。 当然,Karpathy 上传了相关的 GitHub 存储库「build-nanogpt」,包含了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览