今天看啥  ›  专栏  ›  蔚来

NOMI怎么知道你是在和TA说话?

蔚来  · 公众号  · 新能源汽车  · 2024-09-23 18:00

主要观点总结

蔚来智能系统「Banyan 榕 3.0.0」中NOMI拥有了全舱免唤醒功能,通过「NOMI GPT认知中枢」中的「多模拒识」能力实现。无需特定的唤醒词,用户可以直接向NOMI下达指令,交互更自然、便捷与高效。「多模拒识」利用视觉、文本、音频、压感等多种输入模态的信息,分析和判断用户对话指向,识别并拒绝响应无关话语。「多模拒识」包括左「语音预训练模型Wav2Vec」和右「文本预训练模型TinyBert」两颗大脑来识别用户指令。NOMI经过超12,000小时车载语音和超过2,000万条文本学习,全领域的对话判断准确率达96.8%以上。面对复杂对话场景,「高情商助理」REJ Agent辅助判断对话指向和意图。同时,「多模感知特征」辅助判断对话人数和场景,提升判断准确性。NOMI已经实现从「单点功能」向「主动智能」的进化。

关键观点总结

关键观点1: 「多模拒识」能力介绍

NOMI通过视觉、文本、音频、压感等多种输入模态的信息,利用「多模拒识」能力分析和判断用户对话指向,实现全舱免唤醒功能。

关键观点2: 「多模拒识」的工作原理

NOMI通过自研的「多模拒识」模型直接判断语音指令,同时使用「语音预训练模型Wav2Vec」和「文本预训练模型TinyBert」联合工作来识别用户对话并进行分类。

关键观点3: REJ Agent的作用

REJ Agent作为「多模拒识」模型的助理,通过三层逻辑筛选判断用户对话的意图和指向,帮助NOMI更精准地判断是否需要回应。

关键观点4: 「多模感知特征」的作用

「多模感知特征」基于OMS视觉检测、座椅传感器、唤醒音区占用等信息,提升「多模拒识」模型在多人对话场景下的判断精准度。

关键观点5: NOMI的智能进化

引入Agent多智能体架构后,NOMI已经实现从「单点功能」向「主动智能」的进化,例如处理更复杂的用户沟通,理解模糊意图,并预测用户需求。


文章预览

随着蔚来智能系统「Banyan 榕 3.0.0」的到来和升级,NOMI拥有了 全舱免唤醒 功能,这意味着用户无需再通过特定的唤醒词(如「Hi NOMI」),就能直接向NOMI下达指令,用户与NOMI的交互变得更加 自然、便捷与高效 。 那么,从「Hi NOMI,打开车窗」到「打开车窗」,在不唤醒NOMI的情况下,NOMI是如何 准确拿捏回应时机 ,判断哪些指令是下给它的,又是谁下达的? 本期Tech Talk,我们邀请到了蔚来大模型主任算法工程师Anna W,为我们一起探秘 「NOMI GPT 认知中枢」 中的 「多模拒识」能力 。 什么是「多模拒识」 ? 在介绍「多模拒识」之前,我们先来看一个小视频。 从这个视频中我们不难看出,在不需要唤醒NOMI的情况下,NOMI依旧能够正确响应「副驾调的更宽敞一点」这样的指令,也能清晰辨别四人同时交叠的复杂指令,而这个能力就是由「多模拒识」实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览