文章预览
Mini-Omni 是一个开源多模型大型语言模型,可以一边听、一边说,一边思考。具有实时端到端语音输入和流音频输出对话功能。 Mini -Omni 模型架构。 Mini-Omni训练方法分为三个不同的阶段: 模态对齐。 此阶段的目标是增强文本模型理解和生成语音的能力。Mini -Omni 的核心模型完全冻结,仅在两个适配器中允许梯度。在此阶段,我们使用来自语音识别和语音合成的数据来训练模型的语音识别和合成能力。 适应性训练。 一旦新模态与文本模型的输入对齐,适配器就会被冻结。在此阶段,我们只专注于在给定音频输入时训练模型的文本功能,因为音频输出只是从文本合成的。使用来自语音识别、口头问答和文本响应任务的数据对模型进行训练。 多模态微调。 在最后阶段,使用综合数据对整个模型进行微调。此时,所有模型权重都解冻并进行训练。由于
………………………………