Anthropic 又整大活！Claude 现在可以使用计算机完成任务

歸藏的AI工具箱 · 公众号 · AI 科技自媒体 · 2024-10-23 07:00

主要观点总结

Anthropic发布了Claude 3.5 Haiku和升级版的Claude 3.5 Sonnet，两者在代理编码和工具使用任务方面表现出显著的改进。新版Claude 3.5 Sonnet的推理分超过了O1，且支持像人类一样操作计算机。此外，还介绍了API使开发者能集成其能力来指导计算机行动。

关键观点总结

关键观点1: Claude 3.5 Sonnet的发布和性能提升

新版Claude 3.5 Sonnet在代理编码和工具使用任务上显示出广泛的改进，特别是在SWE-bench Verified上的性能从33.4%提高到49.0%。其推理能力在GitLab的DevSecOps任务测试中得到了验证。

关键观点2: Claude 3.5 Haiku的介绍与特点

Claude 3.5 Haiku在各项技能上有所提升，并在许多智能基准上超过了上一代模型。它具有低延迟、改进的指令遵循和更准确的工具使用能力，尤其在编码任务上表现出色。

关键观点3: Claude使用计算机的能力

最新版本的Claude 3.5 Sonnet能够使用计算机，包括移动光标、点击和通过虚拟键盘输入信息。这一能力是通过API实现的，该API使Claude能够感知计算机界面并与之交互。

关键观点4: 人工智能模型使用计算机能力的评估

在评估人工智能模型像人一样使用计算机的能力的OSWorld上，Claude 3.5 Sonnet表现出色。在仅屏幕截图类别中得分为14.9%，明显优于其他人工智能系统。

文章预览

从前几天 CEO 的文章，到评估AI对于任务破坏性的研究，我们大家应该都预感到了，Anthropic 估计是要发一些🐂🍺东西。可能很多人都认为是 Claude 3.5 Opus，但没想到在内容发布安排上大家都是这么出其不意。昨晚 Anthropic 发布了Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet，3.5 Sonnet 升级款的推理分甚至超过了O1。而且 Claude 现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本！有意思的是 Claude 使用电脑的时候还会关掉录制按钮偷懒。开始偷偷浏览黄石公园的照片。新版Claude 3.5 Sonnet介绍更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进，尤其是在代理编码和工具使用任务方面取得了显着的进步。它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为代理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博