大模型进化史：从Transformer到DeepSeek-R1的AI变革之路

人工智能学家 · 公众号 · AI · 2025-02-17 16:54

文章预览

📖阅读时长：19分钟 🕙发布时间：2025-02-14 ❝ 近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容 LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】 2025年初，DeepSeek-R1的出现在人工智能领域掀起了一场轩然大波。本文将回顾大语言模型的发展历程，从2017年具有革命性的Transformer架构开始，它通过自注意力机制重新定义了自然语言处理（NLP）。我们见证了像BERT和GPT这样的模型崛起，它们改变了上下文理解和生成能力，最终诞生了拥有1750亿参数的GPT-3。文章还将探讨如何通过监督微调（SFT）和人类反馈强化学习（RLHF）来解决大语言模型中的 “幻觉” 问题，即生成的文本与事实相矛盾，给人一种 “一本正经胡说八道” 的感觉。到2023年，像GPT-4这样的多模态模型整合了文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博