专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
今天看啥  ›  专栏  ›  Datawhale

最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)

Datawhale  · 公众号  ·  · 2025-03-01 23:18
    

文章预览

 Datawhale干货  作者:LM Po,编辑:Datawhale 2025年初,我国推出了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。 本文回顾LLM的发展历程,以2017年具有革命性意义的Transformer架构为起点。 1. 什么是语言模型 (Language Models)? 「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。 1.1 大型语言模型(LLMs) 「语言模型」(LMs)和「大型语言模型」(LLMs)这两个术语虽然经常被互换使用,但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集,其规模显著更大,通常包含数十亿个参数(例如,GPT-3 拥有 1750 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览