专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

Datawhale · 公众号 · · 2025-03-01 23:18

文章预览

Datawhale干货作者：LM Po，编辑：Datawhale 2025年初，我国推出了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。 1. 什么是语言模型 (Language Models)？「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。 1.1 大型语言模型（LLMs）「语言模型」（LMs）和「大型语言模型」（LLMs）这两个术语虽然经常被互换使用，但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集，其规模显著更大，通常包含数十亿个参数（例如，GPT-3 拥有 1750 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京发布 · 重要提示！北京将迎极端大风，明天将发布橙色预警

23 小时前

爱否科技 · 红魔 “轻薄全屏旗舰” 正式官宣，配置细节有待确认

3 天前

新京报 · 中国诚通增持中国股票资产

3 天前

人物people · 赵露思复出引发巨大争议：网友真正反感的到底是什么？

3 天前

人物people · 赵露思复出引发巨大争议：网友真正反感的到底是什么？

3 天前

新华社 · 闲置手机怎么回收？国家队出招了！

3 天前

一亩三分地求职移民 · 2024老年工程师（6+YOE）上岸经验！

7 月前

慧选牛牛 · 【纪要】福莱新材(605488)交流纪要20240924

6 月前

廉洁银川 · 纪法百科 | 一图读懂应知应会党纪法规《中国共产党章程》

4 月前