实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

机器之心 · 公众号 · AI · 2024-11-20 12:20

主要观点总结

本文主要介绍了昆仑万维开发的Skyo实时语音对话助手，该助手具备快速响应、情感化反应、真实内容互动和个性化声音定制等功能，并基于大模型技术实现更复杂的语境应对和个性化任务执行。文章还提到了语音交互场景的AI具备的感知能力，以及Skyo的一些实测表现和功能特点。同时，文章也提到了现阶段语音交互AI的通病和挑战，以及昆仑万维未来的布局和发力方向。

关键观点总结

关键观点1: Skyo实时语音对话助手是昆仑万维的新产品，基于大模型技术打造。

Skyo具备多样化的功能，如快速响应、情感化反应等，能够应对更复杂的语境和个性化任务。

关键观点2: 语音交互场景的AI具备前所未有的感知能力，能够降低响应延迟并准确读懂用户情感。

目前一些对标GPT-4o的产品如谷歌Gemini Live等仍存在一定短板，如可用性、流畅性等。

关键观点3: Skyo实测表现良好，能够应对用户打断场景，并展现出拟人化属性。

Skyo能够理解用户情绪并给出准确反馈，还具备一定的实时资讯获知和知识拓展能力。

关键观点4: Scaling Law放缓对大模型开发造成影响，但基于大模型的AI应用正在走向多样化。

昆仑万维通过布局基座大模型和AI业务矩阵来应对这一趋势，并推出Skyo实时语音对话助手来抢占市场。

关键观点5: 未来昆仑万维将继续发力多模态AI应用，形成开箱即用的AI应用。

昆仑万维将不断深拓大模型能力释放出口，并加快实现通用人工智能的步伐。

文章预览

机器之心原创编辑：杜伟、大盘鸡算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。不过，由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难，因此这个赛道的玩家并不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。如今，这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能，并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能，并于近日支持 iOS 用户与该语音助手交流。与此同时，国内一些厂商陆续推出了类似的实时语音对话大模型及应用，比如智谱、科大讯飞等，填补了一些空白。如今，这个赛道又迎来了一个有实力的新玩家 — ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博