文章预览
让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体 LLaDA 能够利用 LLM 生成适应不同环境的驾驶策略和指令,为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导,帮助他们更轻松地在陌生的地方导航。此外,LLaDA 还能帮助自动驾驶汽车重新规划出与当地环境更加匹配的运动轨迹,调整自动驾驶汽车的运动规划策略。相关论文成果收录于 CVPR 2024 。 然而,LLaDA 无法实现场景的自动识别,且对场景描述的质量有着较高要求。尽管 GPT-4V 能够提供这种描述,但是却不够准确。为此,NVIDIA Research 提出一个创新的自动化视频字幕生成框架 Wolf。Wolf 采用专家混合方法,利用视觉语言模型(VLMs)的互补优势,能够提升自动驾驶智能体的场景理解能力。 此外,LLaDA 通常是与用户
………………………………