专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

Baichuan-Omni多模态模型及KV Cache换速度的TurboRAG方案

老刘说NLP  · 公众号  ·  · 2024-10-15 08:40

文章预览

今天是2024年10月15日,星期二,北京,天气阴。 我们来看两个工作,一个是Baichuan-Omni多模态模型,看看其技术报告,另一个是TurboRAG的以空间换时间的实现思路,有一些优缺点,我们可以跟进。 会有一些收获。 一、Baichuan-Omni多模态模型 Baichuan-Omni《BAICHUAN-OMNI TECHNICAL REPORT》(https://github.com/westlake-baichuan-mllm/bc-omni,https://arxiv.org/abs/2410.08565)是一个7B参数的模型,能够同时处理和分析图像、视频、音频和文本等多种模态的数据。 1、第一阶段:多模态对齐预训练 预训练和对齐过程包括图像-语言、视频-语言和音频-语言分支。 图像-语言分支使用视觉编码器处理图像,并经过三个阶段的训练,重点关注图像描述、视觉问题回答任务,并进一步增强与大型语言模型(LLM)的对齐。 视频-语言分支在图像-语言分支的基础上构建,使用相同的视觉编码器和视频投 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览