专栏名称: 深网腾讯新闻
《深网》是一档原创深度报道栏目,挖掘TMT领域热门公司、事件和人物中的隐秘故事,探究背后的深层逻辑。
今天看啥  ›  专栏  ›  深网腾讯新闻

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临

深网腾讯新闻  · 公众号  · 社会  · 2024-10-29 10:44
    

主要观点总结

文章介绍了人工智能操控电脑的发展趋势,特别是关于谷歌的贾维斯项目、微软的OmniParser以及OpenAI的智能体雏形的最新进展。文章指出,AI接管人类电脑已成为科技大厂的重点发力方向,同时介绍了几个项目的具体操作原理和应用场景。

关键观点总结

关键观点1: 人工智能操控电脑的发展趋势

人工智能操控电脑已经成为科技巨头的下一个战场,多个项目在积极推动这一技术的发展,并取得了重要进展。

关键观点2: 谷歌的贾维斯项目(Project Jarvis)

谷歌正在开发一个名为贾维斯的项目,该项目使用大动作模型(LAM)技术,针对谷歌Chrome浏览器进行优化。它可以通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,帮助人们完成基于网页的日常任务。

关键观点3: 微软的OmniParser项目

微软开源了AI框架OmniParser,它能够解析用户界面截图,将截图转化为结构化数据,帮助AI精准理解用户意图。OmniParser将图标描述模型与光学字符识别(OCR)模块结合,提高了动作预测准确率。

关键观点4: OpenAI的智能体雏形

OpenAI内部已有AI智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。新的技术发展方向预示着计算机使用的未来将更加智能化和便捷化。


文章预览

编辑:桃子 LRS 【导读】 科幻中的贾维斯,已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。 AI接管人类电脑,就是下一个未来! 几天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。 刚刚,Information独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。 谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。 起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。 无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。 论文地址:https://arxiv.org/pdf/2408.00203 OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览