Claude3.5-sonnet新升级: 直接操作你的电脑完成任务?

type

status

date

slug

summary

1. 发布内容介绍

官方发布文档: https://www.anthropic.com/news/3-5-models-and-computer-use

Claude 最新升级主要包含如下几个方面:

Claude 3.5 Sonnet 升级

Claude 3.5 Haiku 发布

Haiku 相比 Sonnet 是一个规模更小一些的模型，处理速度更快，成本更低，适合用于一些简单任务。

根据官方的介绍：

升级版的 Claude 3.5 Sonnet 在各个方面都比其前身有了改进，尤其在编码方面取得了显著的进步——这是它已经领先的领域。

看起来 Claude 本身在编码领域是下了大力气的，之前 Cursor 默认模型从 OpenAI 切换为 Claude 后，整体效果看起来也是有了一定提升。

对于在编码领域的场景而言，这次 Claude 3.5 Sonnet 看起来觉得值得重点关注。

重要的是，官方在介绍中，重点介绍了除了效果提升之外的另一个创建性的功能：使用计算机。具体来说，开发者可以让 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、点击按钮和输入文本，同时它提供了 API 可以让开发者进行集成。

Ps: Claude 官方也说明了，目前这个功能还是一个实验性的功能，有时很笨，会出一些问题，但是随着开发者的反馈会快速迭代改进。

如下视频是 Claude 放出的一个演示视频：

在演示视频中，演示了一个非常简单的场景，它依次完成了：阅读 Excel，进行 CRM 应用进行检索，填写一个表单并提交。

整个这个过程中体现除了几个模型的核心能力：

规划能力：将用户的原始任务进行拆解，转化为一系列动作依次执行；

信息提取分析能力：每个动作执行完成后，它会基于当前显示器的截图进行下一步分析，需要后续执行的动作。

电脑操作能力：针对分析出来的动作，真实控制电脑实现点击、滚动、输入等操作。

根据 Claude 的介绍，电脑的操作是希望能让 Claude 完成真实世界的任务，同时，为了避免提供一系列单个工具来完成每个单个任务，它提供了一个 API 来教它通用的计算机操作技能，从而开发人员可以利用这一新兴能力来自动化重复的过程，构建和测试软件，以及进行开放式任务，如研究。

这个 API 使 Claude 能够感知和与计算机界面互动。开发者可以集成这个 API，使 Claude 能够将指令（例如，“使用我计算机和在线的数据填写这个表格”）转换为计算机命令（例如，检查电子表格；移动光标以打开网页浏览器；导航到相关网页；用这些页面的数据填写表格；等等）。在 OSWorld 上，该平台评估 AI 模型像人类一样使用计算机的能力，Claude 3.5 Sonnet 在仅截图类别中得分为 14.9%，显著高于第二名 AI 系统的 7.8%。当有更多步骤完成任务时，Claude 的得分为 22.0%。

Claude也强调了 Claude 目前使用计算机的能力仍不完善。一些人们轻松完成的操作——滚动、拖动、缩放——目前对 Claude 来说仍然是挑战，我们鼓励开发者从低风险任务开始探索。由于计算机使用可能为更熟悉的威胁（如垃圾邮件、虚假信息或欺诈）提供新的途径，我们采取了主动措施以促进其安全部署。我们开发了新的分类器，可以识别计算机使用的情况以及是否存在伤害。您可以在我们关于计算机使用开发的帖子中阅读更多关于这一新技能的研究过程，以及对安全措施的进一步讨论。

升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始，开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用测试版进行构建。新的 Claude 3.5 Haiku 将在本月晚些时候发布。

从评测数据来看，Claude 3.5 sonnet 几乎在各个领域全面超越当前业内最先进的其他模型。真实效果值得实际体验期待。

2. 主观感受

在没有实际使用之前，我对 Claude 3.5-sonnet 的这次升级有以下几点主观感受：

Agent 趋势的延续： 这次升级体现了 AI 向 Agent 方向发展的趋势。基础模型厂商正在逐步将 AI 能力从纯粹的对话推理扩展到实际操作和任务执行。OpenAI 此前的 O1 系列模型采用了类似 Agent 的策略进行逐步推理，而 Claude 则更进一步，直接推出了操作真实系统的能力。

电脑控制能力的创新与期待： 虽然电脑控制的能力看起来很新奇，但实际上通过 OpenAI 或者 Claude 等大模型加上 API 封装（提供电脑操作的 Tool）就可以实现类似功能。例如，我们之前就实现过在 Linux 上提供 Shell 命令，或在 Web 浏览器中提供一组浏览器操作动作来实现了类似的能力。然而，Claude 的这项功能仍然非常值得期待，因为它很可能在模型能力上有了实质性的提升，特别是在图像状态理解、任务规划等方面。