今天看啥  ›  专栏  ›  机器之心

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

机器之心  · 公众号  · AI  · 2024-06-10 12:41
    

文章预览

机器之心报道 编辑:杜伟 这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。 AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。 视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。 Karpathy 表示,此次视频之所以这么长,是因为它很全面: 从空文件开始,最后得到一个 GPT-2(124M)模型。 具体实现步骤包括如下: 首先构建 GPT-2 网络。 然后对其进行优化,以便快速训练。 然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和超参数。 然后进行模型评估。 然后祈祷好运,并去睡觉。 第二天早上,查看结果并享受有趣的模型生成。 通宵运行的结果甚至非常接近 GPT-3(124M)模 型。 该视频以「Zero To Hero」系列视频为基础,有些地方参考了以往视频。 你可以根据该视频构建 nanoGPT 存储库,到最后大约有 90% 相似。 当然 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览