主要观点总结
文章介绍了科技大厂们在AI智能体操控电脑方面的新进展,包括谷歌的Project Jarvis、微软的OmniParser等。这些技术能够将截图转化为结构化数据,帮助AI精准理解用户意图,实现人机交互的全新范式。
关键观点总结
关键观点1: 谷歌的Project Jarvis
谷歌正在开发一个名为Project Jarvis的项目,旨在通过AI智能体操控电脑。该项目使用Gemini 2.0驱动,预计年底亮相。Project Jarvis能够自动化Chrome网页任务,通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,帮助人们完成基于网页的日常任务。
关键观点2: 微软的OmniParser
微软开源了AI框架OmniParser,它能够解析屏幕截图,将用户界面截图解析为结构化元素,显著增强了类似GPT-4V的大模型在对应界面区域预测行动的能力。OmniParser可以将复杂的操作任务分解成多个子行动步骤,并具备理解当前步骤的用户界面和预测当前屏幕上的下一个动作的能力。
关键观点3: AI智能体的应用前景
文章指出,“Computer use”已经成为科技大厂们重点发力的下一个战场。AI智能体操控电脑是下一个未来,不仅能够完成在线订餐、自动查询解决编程难题等任务,还具备跨多个APP屏幕识别能力。此外,模型还需要具备强大的屏幕解析能力,包括准确地识别用户界面中的可交互图标和理解屏幕截图中各种元素的语义。
文章预览
新智元报道 编辑:桃子 LRS 【新智元导读】 科幻中的贾维斯,已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。 AI接管人类电脑,就是下一个未来! 几天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。 刚刚,Information独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。 谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。 起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。 无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。 论文地址:https://arxiv.org/pdf/2408.00203 OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数
………………………………