type
status
date
slug
summary
tags
category
icon
password
一觉醒来,科技圈又被 Claude 刷屏了。2024年10月22日晚,Anthropic 公司宣布了 Claude 3.5-sonnet 的重大升级,引入了一项令人兴奋的新功能:直接操控用户的电脑来完成任务。这一更新立即引发了广泛讨论,让我们一起来深入探讨这项新功能的细节、潜力和可能带来的影响。

1. 发布内容介绍

官方发布文档: https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 最新升级主要包含如下几个方面:
  • Claude 3.5 Sonnet 升级
  • Claude 3.5 Haiku 发布
Haiku 相比 Sonnet 是一个规模更小一些的模型,处理速度更快,成本更低,适合用于一些简单任务。
根据官方的介绍:
升级版的 Claude 3.5 Sonnet 在各个方面都比其前身有了改进,尤其在编码方面取得了显著的进步——这是它已经领先的领域。
看起来 Claude 本身在编码领域是下了大力气的,之前 Cursor 默认模型从 OpenAI 切换为 Claude 后,整体效果看起来也是有了一定提升。
对于在编码领域的场景而言,这次 Claude 3.5 Sonnet 看起来觉得值得重点关注。
重要的是,官方在介绍中,重点介绍了除了效果提升之外的另一个创建性的功能:使用计算机。具体来说,开发者可以让 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、点击按钮和输入文本,同时它提供了 API 可以让开发者进行集成。
Ps: Claude 官方也说明了,目前这个功能还是一个实验性的功能,有时很笨,会出一些问题,但是随着开发者的反馈会快速迭代改进。
 
如下视频是 Claude 放出的一个演示视频:
Video preview
在演示视频中,演示了一个非常简单的场景,它依次完成了:阅读 Excel,进行 CRM 应用进行检索,填写一个表单并提交。
整个这个过程中体现除了几个模型的核心能力:
  • 规划能力:将用户的原始任务进行拆解,转化为一系列动作依次执行;
  • 信息提取分析能力:每个动作执行完成后,它会基于当前显示器的截图进行下一步分析,需要后续执行的动作。
  • 电脑操作能力:针对分析出来的动作,真实控制电脑实现点击、滚动、输入等操作。
根据 Claude 的介绍,电脑的操作是希望能让 Claude 完成真实世界的任务,同时,为了避免提供一系列单个工具来完成每个单个任务,它提供了一个 API 来教它通用的计算机操作技能,从而开发人员可以利用这一新兴能力来自动化重复的过程,构建和测试软件,以及进行开放式任务,如研究。
这个 API 使 Claude 能够感知和与计算机界面互动。开发者可以集成这个 API,使 Claude 能够将指令(例如,“使用我计算机和在线的数据填写这个表格”)转换为计算机命令(例如,检查电子表格;移动光标以打开网页浏览器;导航到相关网页;用这些页面的数据填写表格;等等)。在 OSWorld 上,该平台评估 AI 模型像人类一样使用计算机的能力,Claude 3.5 Sonnet 在仅截图类别中得分为 14.9%,显著高于第二名 AI 系统的 7.8%。当有更多步骤完成任务时,Claude 的得分为 22.0%。
Claude也强调了 Claude 目前使用计算机的能力仍不完善。一些人们轻松完成的操作——滚动、拖动、缩放——目前对 Claude 来说仍然是挑战,我们鼓励开发者从低风险任务开始探索。由于计算机使用可能为更熟悉的威胁(如垃圾邮件、虚假信息或欺诈)提供新的途径,我们采取了主动措施以促进其安全部署。我们开发了新的分类器,可以识别计算机使用的情况以及是否存在伤害。您可以在我们关于计算机使用开发的帖子中阅读更多关于这一新技能的研究过程,以及对安全措施的进一步讨论。
 
升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用测试版进行构建。新的 Claude 3.5 Haiku 将在本月晚些时候发布。
notion image
从评测数据来看,Claude 3.5 sonnet 几乎在各个领域全面超越当前业内最先进的其他模型。真实效果值得实际体验期待。
 

2. 主观感受

在没有实际使用之前,我对 Claude 3.5-sonnet 的这次升级有以下几点主观感受:
  • Agent 趋势的延续: 这次升级体现了 AI 向 Agent 方向发展的趋势。基础模型厂商正在逐步将 AI 能力从纯粹的对话推理扩展到实际操作和任务执行。OpenAI 此前的 O1 系列模型采用了类似 Agent 的策略进行逐步推理,而 Claude 则更进一步,直接推出了操作真实系统的能力。
  • 电脑控制能力的创新与期待: 虽然电脑控制的能力看起来很新奇,但实际上通过 OpenAI 或者 Claude 等大模型加上 API 封装(提供电脑操作的 Tool)就可以实现类似功能。例如,我们之前就实现过在 Linux 上提供 Shell 命令,或在 Web 浏览器中提供一组浏览器操作动作来实现了类似的能力。然而,Claude 的这项功能仍然非常值得期待,因为它很可能在模型能力上有了实质性的提升,特别是在图像状态理解、任务规划等方面。
  • 潜在的应用前景: 这项新功能为 AI 助手开辟了广阔的应用前景,从自动化办公到编程辅助,再到个人生活助理,都有巨大的潜力。它可能会改变我们与计算机交互的方式,使得许多复杂的任务变得更加简单和高效。
 

3. 实际体验

今天,我们将会进行一系列相关的产品体验,包括 API 集成来实际看看效果~
官方文档: https://docs.anthropic.com/zh-CN/docs/build-with-claude/computer-use
下面我们首先根据官方文档来实际体验一下相关的基础功能。
 
第一个示例请求如下:
可以看到,在这个场景中,传递给 Cluade API 三个内置定义的 Tool:
  • computer: 这个就是直接操作电脑的工具,比如截图、点击等
  • bash: 这个就是 bash 命令,比较简单
  • str_replace_editor: 一个文件编辑相关的工具,具体什么功能可以在看看。
 
我们直接调用一下,看看效果:
哈哈,这就熟悉了,和传统的 Tools 调用没有什么本质区别,只不过是 Tool 换成了 Claude 内置的工具了。
可以看到,它当前的思考步骤是需要进行一些当前浏览器的截图,分析一下当前的电脑状态。
那具体该这么执行这个 Tool 动作呢?需要一套配套的工具执行能力。
Cluade 提供了一个用于 QuickStart 的 Github 项目,项目地址: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
这个示例项目包括了:
  • 构建一个独立的 Docker 容器用于作为执行环境
  • 使用 Anthropic API、Bedrock 或 Vertex 的计算机使用代理循环,以访问更新的 Claude 3.5 Sonnet 模型
  • Anthropic 定义的工具定义的实现
  • 一个用于与代理循环交互的 Streamlit 应用程序
 
现在,我们来拉取一个镜像并启动服务看看:
服务启动完成后,你可以通过如下几个 URL 地址访问你的服务:
  • http://localhost:8080 包含 Agent 聊天和桌面视图的综合界面
  • http://localhost:8501 Streamlit 界面
  • http://localhost:6080/vnc.html 桌面视图
  • vnc://localhost:5900 直连 VPC 连接
服务启动后,综合视图页面如下:
notion image
让我们来输入相同的指令来看看:将一张猫的图片保存到我的桌面。
 
直观感受:
  • 快!比之前我们在 WEB UI 智能化测试场景的速度明显要快!单步基于图片的推理看起来只要3s左右;
  • 【将一张猫的图片保存到我的桌面】这个任务进行了 13 轮对话,稍微有点儿担心我的 Token,实际看下来,0.56 美金,大约 4 人民币,略贵,不过相比 WEB UI 智能测试场景,其实还行。
下面,我们来看看每一轮是怎么实现的吧:
Computer Use Demo.pdf
2519.6KB
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
通过观察 Agent 的思考过程,我们可以看到:
  1. computer 工具是通过桌面坐标的方式进行元素定位的,它的坐标定位极其的精准;
  1. computer 工具每次操作的过程中,主要的流程是将鼠标启动到要操作的位置,然后左键、右键等输入等等操作;
  1. 规划推理能力很不错,从头到尾几乎没有什么走偏;
 
下面,我们用一个其他的示例再来看看,刚才在使用的是官方给出的示例,下面,我们来看看我们自己随意设计的一个场景:
进入 https://aistudio.baidu.com/ 项目页面,看看今天有什么新上的课程
思考过程如下:
 
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
notion image
诶,最后一步有点儿神奇!推理部署项目其实是不存在的,它错误的将Tab中的推理部署和第一个项目的发布时间结合在和一起,认为是一个新发布的项目啦。
 
当前,瑕不掩瑜,不可否认的是,Claude 3.5 操作电脑的能力的确是让人有一些惊艳的,比如精准的元素坐标定位,快速的响应速度,步骤规划与拆解等,这些都给未来 AI 在更多领域的落地应用提供了可能性!