文章预览
LLM的工作原理对大多数人来说是个谜。虽然 它们本质上在于“预测下一个词” ,并需要大量文本进行训练,但具体细节往往令人困惑。原因在于这些系统独特的开发方式: 基于数十亿词汇训练的神经网络,不同于传统的人类编写的软件。 尽管没人完全理解其内部机制,但研究人员正努力探索。 本文旨在以非技术、非数学的方式解释LLM的工作原理,包括词向量、Transformer模型及其训练方式,以及为何需要海量数据来取得良好性能。 一、Word vectors—— 词向量 理解语言模型工作原理,首要了解它如何表示单词。人类用字母序列表示单词,如"cat"为C-A-T。语言模型用长词向量列表表示单词,如"cat"表示为:[0.0074, 0.0030, -0.0105, ... , 0.0002]。 为什么要使用这样的复杂表示法呢?这里举个类比。华盛顿特区位于北纬38.9度、西经77度。我们可以使用向量表示法
………………………………