专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

新智元 · 公众号 · AI · 2024-09-24 10:53

主要观点总结

本文介绍了法国的初创团队Kyutai发布的端到端语音模型Moshi，该模型可自然聊天、情绪丰富，并能随意打断。Moshi是一个全双工口语对话框架，突破了传统AI对话模型的限制，具有较小的音频语言模型增强了文本LLM主干。该模型由Mimi（流式神经音频编解码器）和Transformer部分组成。文章还介绍了模型的技术细节，包括其架构、训练数据、超参数等。

关键观点总结

关键观点1: Moshi是一个端到端的语音模型，可自然聊天、情绪丰富。

该模型由Kyutai团队开发，已开源并提供在线体验。相比其他AI语音助手，其「像人一样」的聊天方式很奇特。

关键观点2: Moshi模型架构的技术细节

Moshi包括Mimi（流式神经音频编解码器）和Transformer部分。其架构突破了传统AI对话模型的限制，允许在任意动态的自然对话上训练模型。模型使用了一些通用设计，如RMS归一化、旋转位置嵌入等。

关键观点3: Moshi的训练数据和超参数

模型在公共英语数据的2.1T token上进行了预训练，包括维基百科、Stack Exchange和科学文章等。训练过程中使用了AdamW优化器和特定的超参数。

关键观点4: 内心独白技术

内心独白是一种用于音频语言模型训练和推理的新方法，通过在音频token之前预测时间对齐的文本token，提高了生成语音的事实性和语言质量。

文章预览

新智元报道编辑：alan 【新智元导读】两个多月前那个对标GPT-4o的端到端语音模型，终于开源了。大神Karpathy体验之后表示：nice！前段时间技惊四座、剑指GPT-4o的实时语音模型Moshi，终于开源了！自然聊天，情绪丰富，随意打断，拒绝呆板和回合制！大神Karpathy体验之后也表示：nice~ 来自法国的初创团队Kyutai，于7月初发布了这个对标GPT-4o的神奇的端到端语音模型。 2个多月后的今天，他们兑现了自己的承诺，将代码、模型权重和一份超长的技术报告一股脑开源。论文地址：https://kyutai.org/Moshi.pdf 开源代码：https://github.com/kyutai-labs/moshi 开放权重：https://huggingface.co/collections/kyutai 在海的那一边，GPT-4o的语音模式还没有完全端上来，这边的模型已经免费送了。大家可以去官网（moshi.chat）在线免费体验，相比于平时你问我答的AI语音助手，这种「 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博