专栏名称: Founder Park
来自极客公园,专注与科技创业者聊「真问题」。
今天看啥  ›  专栏  ›  Founder Park

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

Founder Park  · 公众号  ·  · 2024-07-05 19:06
    

文章预览

文章转载自「机器之心」。 最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。 这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。 的确,在研究团队演示的视频中,我们发现 Moshi 可以非常流利地回答人们提出的问题,进行日常对话交流,甚至可以猜出提问者的意图。 例如,当提问者说「下个月打算去攀登珠穆朗玛峰,我在想......」,提问者话说到一半,Moshi 就说道:「太了不起了,你需要带些什么装备呢」,提问者则表示:「这正是我想讨论的话题,你觉得我需要带些什么呢」。于是,Moshi 给出了一些攀登设备的专业建议,并回答了关于注意事项的问题: 我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览