文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、视觉语言模型、基准测试的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. Mini-Omni:语言模型能听、说也能实时思考 标题: Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming 相关领域: 模型结构改进、多模态 作者: Zhifei Xie, Changqiao Wu 分析: 这篇论文提出了一种基于音频的端到端对话模型Mini-Omni,能够实现实时语音交互。它通过文本指导的语音生成方法和批量并行推理策略,在不降低原有语言模型能力的前提下,实现了实时语音交互的能力。此外,论文还介绍了用于优化语音输出的VoiceAssistant-400K数据集。 地址: https://arxiv.org/pdf/2408.16725 2. Critic-CoT:通过链式思维批判提升大模型的推理能力 标题: Critic-CoT: Boosting the reasoning abilities of large language model via Chain-
………………………………