专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Big Model Weekly | 第36期

AI TIME 论道 · 公众号 · 科技自媒体 · 2024-09-07 08:20

主要观点总结

本篇文章总结了近期关于人工智能领域的几个重要研究，包括REInstruct：从未标注语料中自动构建指令数据的方法、LongVILA：针对长视频理解的全栈解决方案、MagicDec：解决大型语言模型在长上下文应用中的延迟和吞吐量问题、xGen-VideoSyn-1：文本生成视频模型、OpenCity：用于交通预测的开时空基础模型、MoE-LPR：大型语言模型的多语言扩展方法以及Mixed Sparsity Training：实现Transformer预训练的FLOPs减少。文章还介绍了AI TIME的起源和目的。

关键观点总结

关键观点1: REInstruct

介绍了一种从未标注语料中自动构建指令数据的方法，无需过度依赖专有LLMs和人工标注。

关键观点2: LongVILA

提供了一种全栈解决方案，通过引入长上下文扩展和长监督微调，支持长视频理解，并介绍了长上下文多模态序列并行（MM-SP）系统。

关键观点3: MagicDec

解决了大型语言模型在长上下文应用中处理长上下文请求的延迟和吞吐量问题，通过严格分析和智能起草策略实现高吞吐量推理。

关键观点4: xGen-VideoSyn-1

介绍了一种文本生成视频模型，基于潜在扩散模型（LDM）架构和视频变分自编码器（VidVAE），支持从文本描述中生成逼真的场景。

关键观点5: OpenCity

探索构建用于交通预测的时空基础模型的新可能性，通过结合Transformer架构和图神经网络建模交通数据中的复杂时空依赖关系。

关键观点6: MoE-LPR

提出了一种称为MoE-LPR的方法，通过两阶段训练增强大型语言模型的多语言能力，并防止对原有语言能力的遗忘。

关键观点7: Mixed Sparsity Training

介绍了一种高效的预训练方法——混合稀疏训练（MST），能够在保持性能的同时减少大约75%的浮点运算（FLOPs）。

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！ 01 REInstruct: Building Instruction Data from Unlabeled Corpus 手动为大语言模型标注指令数据既困难又昂贵，而且难以扩展。同时，当前的自动标注方法通常依赖于从专有LLMs提炼合成数据，这不仅限制了指令数据质量的上限，还可能引发潜在的版权问题。本文提出了REInstruct，这是一种简单且可扩展的方法，用于从未标注语料中自动构建指令数据，而无需过度依赖专有LLMs和人工标注。具体而言，REInstruct首先选择一部分未标注文本，这些文本可能包含结构良好、有帮助且有见解的内容，然后为这些文本生成指令。为了生成准确且相关的响应以进行有效和稳健的训练，REInstruct进一步提出了一种基于重写的方法，以提高生成的指令数据的质量。通过将Llama-7b在3k种子数据和32k来自REInstruct的合成数据上进行训练，微 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博