专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

FBI-LLM低比特基础大模型,首个完全从头训练的二值化语言模型

将门创投  · 公众号  · 科技创业  · 2024-08-08 08:22

文章预览

自回归训练方式已经成为了大语言模型(LLMs)训练的标准模式, 今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文,题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》,该论文首次提出了采用自回归蒸馏的优化方式从头训练二值化的大语言模型,性能可以匹配或者接近FP16或者BF16训练的LLMs,同时效果远超之前所有二值化大语言模型将近十个点。目前该工作的训练代码,数据和模型权重已全部开源。 论文标题:  FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation  论文链接 : https://arxiv.org/abs/2407.07093 代码链接: https://github.com/LiqunMa/FBI-LLM 一、核心结论和贡献 相比之前的二值化大语言模型,这是第一个从头开始训练,不使用任何预训练参数的二值化大语言模型。 训练过 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览