今天看啥  ›  专栏  ›  Founder Park

谷歌、微软加入「AI 操控电脑」战场:谷歌版贾维斯将由Gemini 2.0加持

Founder Park  · 公众号  · 科技自媒体  · 2024-10-28 21:07

主要观点总结

文章介绍了谷歌的贾维斯项目、微软的OmniParser以及AI智能体在操控计算机方面的最新进展。谷歌贾维斯通过截屏、解析屏幕内容,自动点击按钮或输入文本,帮助人们完成基于网页的日常任务。微软的OmniParser结合了多个技术,包括可交互区域检测、功能局部语义的整合等,以生成用户界面的结构化表示,帮助AI精准理解用户意图。文章还介绍了相关的评估实验以及参考资料。

关键观点总结

关键观点1: 谷歌的贾维斯项目

谷歌贾维斯是一个大动作模型(LAM),针对谷歌Chrome浏览器进行了优化。它通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,帮助人们完成基于网页的日常任务。但它在执行不同操作时会有几秒的思考时间,目前仍需要在云端操作。

关键观点2: 微软的OmniParser

微软最新提出的OmniParser模型可以将用户界面截图解析为结构化元素,显著增强了GPT-4V在对应界面区域预测行动的能力。它结合了微调后的可交互图标检测模型、图标描述模型以及光学字符识别(OCR)模块,可以生成用户界面的结构化表示,类似于文档对象模型(DOM)。

关键观点3: AI智能体的屏幕解析能力

想要把多模态大模型应用于操作系统上,模型还需要具备强大的屏幕解析能力,主要包括准确地识别用户界面中的可交互图标,以及理解屏幕截图中各种元素的语义。最新技术如OmniParser和GPT-4V的结合,展示了AI在屏幕解析和完成任务方面的巨大潜力。


文章预览

文章转载自「新智元」。 AI接管人类电脑,就是下一个未来! 几天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。 刚刚,Information独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。 谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。 起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。 无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。 论文地址:https://arxiv.org/pdf/2408.00203 OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。 不仅如此,OpenAI内部已有了AI智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。 包括苹果在内,预计在明年发布跨多个APP屏幕识别能力。最新迭代的Ferret-UI 2 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览