专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务

AIGC开放社区 · 公众号 · 科技自媒体 · 2024-08-23 08:02

主要观点总结

文章聚焦于AIGC领域专业社区关注的大型语言模型（LLM）的发展和应用落地，特别是谷歌DeepMind的Gemini 1.5 Pro在实体机器人中的应用。文章介绍了Gemini 1.5 Pro如何帮助实体机器人解决传统机器人的问题，具备回忆能力，并通过实例详细说明了其多模态视觉语言导航模型Mobility VLA的应用和性能表现。

关键观点总结

关键观点1: 大型语言模型（LLM）在实体机器人中的应用落地

谷歌DeepMind将大模型Gemini 1.5 Pro集成在实体机器人中，为其提供导航、推理等服务，解决了传统机器人缺乏高级认知等问题。

关键观点2: Mobility VLA模型的应用和性能表现

基于Gemini 1.5 Pro的文本、图像、音频等能力，研究人员开发了多模态视觉语言导航模型Mobility VLA。它在复杂环境下能精确匹配用户指令，帮助机器人导航到正确位置。

关键观点3: Gemini 1.5 Pro在实体机器人导航中的作用

Gemini 1.5 Pro通过其长上下文处理能力，在理解用户指令和定位目标方面表现出色，并提升了导航的准确性和鲁棒性。实验结果显示，机器人在不同类型的指令测试中表现出高效性和处理复杂指令的能力。

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！谷歌DeepMind在社交平台分享了最新研究，将大模型Gemini 1.5 Pro集成在实体机器人中，为其提供导航、推理等服务。由于缺乏高级认知、学习能力、语义理解以及数据存储等，传统机器人的“回忆能力”较差，无法提供更人性化的服务。而Gemini 1.5 Pro提供的100万Tokens上下文长度，可有效解决这些难题，通过语音对话的方式将能让机器人执行各种任务同时具备回忆的能力。根据谷歌的测试结果显示，在Gemini 1.5 Pro的帮助下，在836平方米的真实测试空间中，让实体机器人执行了57种四大类型的指令任务，成功率平均在71%左右。论文地址：https://arxiv.org/abs/2407.07775 研究人员在Gemini 1.5 Pro的文本、图像、音 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博