专栏名称: AI新旗手
专注于互联网传媒行业研究方法论,通过对关键数据的挖掘整合与紧密跟踪,寻找到产业的内在变化逻辑及相应的市场投资机会。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI新旗手

GPT-4o:AI语音助手,静待IOS和Win 落地

AI新旗手  · 公众号  ·  · 2024-05-14 11:54
    

文章预览

【华福AI互联网|杨晓峰团队】 杨晓峰 18519333225/ 马梓燕15323887853 / 陈熠暐 1865025989 一、GPT-4o模型基座:三种模态的混合模型,带来更大泛化能力 GPT-4o是文本、视觉和音频的端到端训练的一个新模型,这意味着所有输入和输出都由同一个神经网络处理。 对文本、音频和视觉三种模态统一进行混合训练,因而大部分数据都是通过无监督学习实现; 相比过去拼接模型需要对视觉进行标注,混合模型在整体数据量规模上可以做得更大,进而带来更大的泛化能力。 二、GPT-4o奠定AI语音助手基础:低延迟+情绪感知+视觉感知 1、AI语音基础:接近于人类对话响应速度。 GPT-4o可以在短短232毫秒内响应音频输入,平均为320毫秒,这类似于对话中的人工响应时间,没有表现出丝毫延迟的视觉和声音反馈。在GPT-4o之前,使用语音模式与ChatGPT交谈平均延迟为2.8秒(GPT-3.5 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览