专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
培训江湖  ·  好课推荐| ... ·  6 天前  
今天看啥  ›  专栏  ›  图灵人工智能

大白话!解析大模型原理!

图灵人工智能  · 公众号  ·  · 2024-07-14 00:00

文章预览

LLM的工作原理对大多数人来说是个谜。虽然 它们本质上在于“预测下一个词” ,并需要大量文本进行训练,但具体细节往往令人困惑。原因在于这些系统独特的开发方式: 基于数十亿词汇训练的神经网络,不同于传统的人类编写的软件。 尽管没人完全理解其内部机制,但研究人员正努力探索。 本文旨在以非技术、非数学的方式解释LLM的工作原理,包括词向量、Transformer模型及其训练方式,以及为何需要海量数据来取得良好性能。 一、Word vectors—— 词向量 理解语言模型工作原理,首要了解它如何表示单词。人类用字母序列表示单词,如"cat"为C-A-T。语言模型用长词向量列表表示单词,如"cat"表示为:[0.0074, 0.0030, -0.0105, ... , 0.0002]。 为什么要使用这样的复杂表示法呢?这里举个类比。华盛顿特区位于北纬38.9度、西经77度。我们可以使用向量表示法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览