白虎意思 Claude 3.5夜深醒悟：编程干翻o1 Agent通宵变天

发布日期：2024-10-23 11:19 点击次数：173

白虎意思

Claude 3.5夜深迎来重磅升级！

居然如斯，Anthropic AI这周终于有了大当作——首发Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来了。

不外，「超大杯」Opus依然莫得亮相。

让东说念主惊艳的是，进化后的Claude 3.5 Sonnet一举击溃OpenAI o1，号称最强推理模子。

它在各个方面得到了全面权臣的进步，尤其是业界率先的编码才略。

而Claude 3.5 Haiku与上一代最强Claude 3 Opus性能相当，老本、速率与上一代Haiku周边。

致使，Claude咫尺不祥像东说念主类一样操作预备机，不仅可以搜检屏幕、挪动光标，还可以单机按钮、键入文本！

Anthropic开发者联系把握表露，「预备机使用」是全新东说念主机交互范式的第一步。同期亦然，AI模子应该具备的全新基础才略。

很多作念浏览器智能体的初创公司，通宵之间逾期了。

网友们纷纷感触：Agent和责任流都要变天了……

会我方用电脑的AI来了？

在公测中，Anthropic引入一项冲破性的新功能：预备机使用才略。从今天起，开发者可以通过API，领导Claude像东说念主类一样使用预备机了。

Claude 3.5 Sonnet是首个在公测中提供此功能的模子。

天然，这项功能仍处于实验阶段，使用起来还有些拙劣，可能出错。而Anthropic汲取提前发布此功能，亦然为了获取开发者反馈，将之快速革命。

为什么要锻真金不怕火AI操作电脑？

Anthropic表露，在往时几年里，庞杂的AI开发照旧达到了很多里程碑，比如践诺复杂逻辑推理，以及识别和相识图像的才略。

而下一个冲破点，即是AI操作电脑了！若是模子无须通过挑升定制的器具进行交互，而是按指点就能使用通盘软件，这一定代表着将来的标的。

基本电脑操作

在这个demo中，Anthropic商讨员给Claude提议了一个极有难度的挑战：

我的一又友要来旧金山，我念念来日早上和他通盘在金门大桥看日出。咱们将从太平洋高地开赴。你能帮咱们找到一个绝佳的不雅赏地点，搜检一下开车时辰和日出时辰，然后安排一个日期举止，让咱们有实足的时辰到达哪里吗？

Claude自行绽开了Google，起先了搜索。

金门大桥和用户居住地有多远呢？Claude会我方绽开舆图查找距离。

了解所需信息之后，它绽开了日期，为主东说念主安排好了日程。

自动编码写网站

开发者展示出Claude怎么操控了我方的札记本电脑，丝滑地完成了一个网站编程任务。

起先，Claude在小哥的Chrome浏览器中导航到了Claude.ai，何况让Claude为我方创造了一个90年代主题的个东说念主主页。

只见它我方输入彀址，键入教唆，向另一个Claude发出苦求。

Claude.ai复返了一些代码，渲染出来的画面看起来很可以，但小哥但愿在我方的电脑土产货上对网站作念一些修改。

于是他让Claude下载文献，然后在VS Code中将其绽开。Claude告捷完成了这些指示。

然后小哥让Claude启动了一个奇迹器，然后就可以在浏览器中执行搜检这个文献了。

Claude绽开了VS Code终局，尝试启动一个奇迹器，然后却遭遇了演叨：机子上并莫得装置Python。

恶果，通过搜检终局输出，Claude我方发现了这个问题！它用Python 3再次尝试，告捷运行起了奇迹器。

不外，终局输出中有个演叨，顶部还短缺了一个文献图标。开发者小哥请Claude来识别这个演叨，在文献中缔造它。

令东说念主惊喜的是，Claude在VS Code中找到了激勉演叨的行，删除了整行，然后保存文献、再交运行网站。

此次，网站皆备正确！

自动寻找数据填表

假定咱们需要填写一份来自「蚂蚁开发公司」的供应商苦求表，但需要填写的数据离别在电脑的各个边缘，Claude能帮咱们完成吗？

只见它起先截取小哥的屏幕截图，何况很快发现：蚂蚁开发公司并不在表格中。

这时，它坐窝切换到CRM系统中，去搜索这个公司。找到后，它起先滚动页面，查找填表所需的通盘信息，然后提交了表格。

这也就意味着，咱们责任中很多不得不作念的繁琐事项，都可以交由Claude代劳了！

咫尺，这个功能照旧在API中可用了。

咫尺，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家盛名公司，照旧在探索Claude的新潜能，让它们践诺数十步致使数百步的复杂任务了。

比如，Replit正在运用Claude 3.5 Sonnet的预备机使用和用户界面导航才略，为Replit Agent开发功能，在构建应用规范过程中对其及时评估。

远低于东说念主类，但将来可期

新升级后的Claude 3.5 Sonnet，电脑使用才略究竟怎么？

在 OSWorld测试中，它在仅基于屏幕截图的任务类别中得分为14.9%，较着超越了排行第二的AI系统（7.8%）。

当允许更多操作规范来完成任务时，Claude得分提高到了22.0%。

这标明模子与环境的屡次交互，不祥优化任务性能。

天然这一恶果比之前有了大幅进步，但仍然远低于东说念主类72.36%的弘扬。

这也示意了，Claude 3.5 Sonnet将来还有很大的革命空间。

毕竟，东说念主类绝不吃力完成的一些操作（滚动、拖动、缩放），咫尺关于Claude来说极具挑战。

升级版Claude 3.5 Sonnet，编码王者干翻o1

在各项行业基准测试中，升级版Claude 3.5 Sonnet性能得到了全场所进步。

特殊是，智能体编码、器具使用任务中取得权臣冲破。

论文地址：https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在编码才略方面，它在SWE-bench Verified测试中，性能从33.4%大幅进步至49.0%。

这超越了通盘公开可用的模子——包括OpenAI o1-preview等推理模子和专为智能体编码联想的挑升系统。

此外，在TAU-bench（一项评估智能体器具使用才略的基准测试）中，Claude 3.5 Sonnet也弘扬出色：

在零卖界限的得分从62.6%提高到69.2%，在更具挑战性的航空界限则从36.0%跃升至46.0%。

从下表中，可以看出推理测试基准GPQA（Diamond）上，新版Claude 3.5 Sonnet大幅超越GPT-4o。

在视觉QA、数学推理、文档视觉问答、图表问答、科学表格基准测试中，Claude 3.5 Sonnet性能成为业界新标杆。

值得一提的是，新版Claude 3.5 Sonnet性能冲破同期，色情小游戏仍保抓了与前代模子相易的价钱和运行速率。

一些早期测试用户的反馈，进一步印证了升级后Claude 3.5 Sonnet，在AI驱动编码界限齐全「质」的飞跃。

GitLab：在DevSecOps任务测试中，发现Claude 3.5 Sonnet在不增多蔓延的前提下，推理才略权臣进步（各用例最高进步10%），使其成为驱动复杂软件开发进程的理念念汲取

Cognition：将新版Claude 3.5 Sonnet应用于自主AI评估，在编码、见解和问题处治等方面，相较前代模子均取得了本质性突出

The Browser Company：在使用该模子自动化网罗责任进程时发现，Claude 3.5 Sonnet的弘扬超越了他们此前测试过的通盘模子

此外，在安全部署前，Claude 3.5 Sonnet照旧在好意思国AI安全商讨所（US AISI）和英国安全商讨所（UK AISI）进行了聚拢测试。

而且，经过自己评估，Anthorpic在「Responsible Scaling Policy」中制定的ASL-2圭臬仍然适用于新模子。

如前所述，升级版的Claude 3.5 Sonnet咫尺照旧可以在网页、终局APP上使用了。

API的订价肇始为每百万输入Token 3好意思元，每百万输出Token 15好意思元。

通过使用智能缓存技艺可从简高达90%的老本，而使用批处理API则可从简50%老本。

应用场景

Claude 3.5 Sonnet不祥相识细小的指示和崎岖文，识别并校正自己演叨，还能从复杂数据中生成长远的分析和瞻念察。联接最先进的编码、视觉识别和写稿才略，Claude 3.5 Sonnet可以被应用于多样场景。

- 模拟东说念主类操作电脑

通过API集成Claude，开发者可以领导Claude像东说念主类一样使用电脑——通过不雅察屏幕、挪动鼠标、点击按钮和键入翰墨。Claude 3.5 Sonnet是首个不祥以这种神色可靠使用电脑的前沿AI模子，天然咫尺在公开测试阶段仍具实验性质，但其才略会随时辰抓续进步。

- 代码自动生成

Claude 3.5 Sonnet可以协助悉数软件开发生命周期——从运行联想到演叨缔造，从系统惊羡到性能优化。可以告成将它被集成到居品中，或通过Claude.ai平台将其用作智能编码助手。

- 智能对话系统

凭借增强的推理才略和亲和、天然的口吻，Claude 3.5 Sonnet特殊稳健开发需要跨系统连气儿数据并践诺操作的智能对话系统。

- 智能常识问答

Claude 3.5 Sonnet具有大限制崎岖文处理才略和极低的幻觉率，使其成为处理大型常识库、文档和代码库问答任务的理念念汲取。

- 视觉信息索求

Claude 3.5 Sonnet不祥简略从图表、图形和复杂示意图等视觉材料中索求信息——这使其成为数据分析和数据科学任务的理念念东说念主工智能模子。

- 进程自动化

Claude 3.5 Sonnet不祥齐全重叠性任务或进程的自动化。它具备业界率先的指示践诺才略，不祥处理复杂的进程和操作。

全新Claude 3.5 Haiku，智能超越上代老年老

从上一代对标来看，Claude 3.5 Haiku称得上是「最小杯」。

这是Anthropic速率最快的模子。

它不仅保抓乐了与Claude 3 Haiku相易的运行老本和周边的处理速率，还在各项手段全面进步。

致使，在多项智能基准测试中，Claude 3.5 Haiku超越了上一代最庞杂的模子Claude 3 Opus。

相同，Claude 3.5 Haiku在编码任务上的弘扬尤为超卓。

比如，在SWE-bench Verified测试中，它取得了40.6%的高分，超越了很多使用公开可用的最先进模子的AI智能体——包括原始版块的Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku具备了三点杰出上风：

1. 低蔓延反馈

2. 更精确的指示践诺才略

3. 更准确的器具使用

这些特质使得模子特殊适用于，面向用户的居品开发、挑升的子智能体任务处理、基于海量数据（如购买记载、价钱信息或库存数据）生成个性化体验。

本月末，Claude 3.5 Haiku将在多个平台上推出，包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。（最初会以纯文本模子体式推出，随后会加入图像输入功能）

Claude 3.5 Haiku的订价肇始为每百万输入Token 0.25好意思元，每百万输出Token 1.25好意思元。

通过使用教唆词缓存技艺可从简高达90%的老本，而使用讯息批处理API则可从简50%的老本。

应用场景

凭借快速的处理速率、革命的指示践诺才略和更准确的器具使用，Claude 3.5 Haiku特殊稳健面向用户的居品、挑升的提拔任务，以及从海量数据中生成个性化体验。

- 代码自动补全

Claude 3.5 Haiku不祥提供快速、准确的代码建议和补全，有用加快开发责任进程。特殊稳健那些但愿简化编码过程并提高分娩力的软件开发团队。

- 智能聊天机器东说念主

借助增强的对话才略和快速的反馈时辰，Claude 3.5 Haiku在驱动能处理多数用户互动的反馈式聊天机器东说念主方面弘扬出色。关于需要可蔓延互动才略的客户奇迹、电子商务和教师平台来说，它尤其有价值。

- 数据索乞降自动标注

Claude 3.5 Haiku能高效处理和分类信息，在快速数据索乞降自动标注任务中弘扬优异。这一才略关于需要处理金融、医疗保健和商讨界限多数非结构化数据的组织特殊有用。

- 自动及时内容审核

Claude 3.5 Haiku通过其革命的推理和内容相识才略，提供可靠、即时的内容审核奇迹。这关于那些需要大限制惊羡安全、稳健内容的外交平台、在线社区和媒体组织来说极具价值。

怎么教学Claude操作电脑

Anthropic表露，东说念主类简略践诺的操作——滚动、拖拽、缩放，咫尺对Claude来说仍然很有挑战性。

而关于垃圾邮件、演叨信息、诓骗这类风险，公司正在寻找安全部署的战略，比如开发了识别系统，检测是否发生危害。

商讨过程

Anthropic在器具使用和多模态的责任，为AI识别和施展图像奠定了基础。

在此基础上，Claude还需要推理若缘何及何时凭据屏幕内容践诺操作。

为此，商讨者锻真金不怕火Claude准确预备像素，从而完成敕令，因为它必须预备出需要垂直或水平挪动鼠标指针几许像素，才智点击正确的位置。

在此时代，Claude赶快将学习告捷从预备器和文本裁剪器这类通俗软件的锻真金不怕火中，挪动到了其他应用（堤防，时代它不允许联网）。

这种锻真金不怕火让它能将用户指示转折为一系列逻辑规范，践诺操作。遭遇进犯时，致使还能自我校正、重试任务。

小插曲

Anthropic开发者联系把握Alex Albert还共享了，团队在开发预备机使勤恳能时的一个真谛故事。

那时，他们举行了一场工程师的bug bash（间隙排查举止），以确保发现API通盘潜在的问题。

这意味着，要把一群工程师关在一个房间里几个小时。

那时，未必群众都饿了。其中一位工程师灵机一闪，「不如让Claude来个实战演习，自主绽开DoorDash帮咱们订餐」。

av天堂

没念念到，约莫一分钟后，Claude为工程师们定来了披萨。

瞻望将来

AI操作电脑才略代表了一种全新的东说念主工智能开发法子。

迄今吊销，LLM开发者一直在接力使器具适当模子，创造特殊的环境，让AI使用挑升联想的器具来完成多样任务。

咫尺，Anthropic「反治其身」——他们汲取让模子去适当器具。也即是，Claude能像东说念主类一样，融入咱们盛大使用的预备机环境，告成使用现存的软件。

天然Claude照旧达到了刻下的最高水平，但它的操作仍然相对迟缓且容易出错。咱们盛大使用电脑时的很多操作，如拖拽、缩放等，Claude都还无法作念到。

此外，Claude咫尺不雅察屏幕的神色肖似于快速翻阅一册「画册」——通过连气儿截图并拼接在通盘，而不是不雅察连气儿的视频流。这意味着它可能会错过一些移时的当作或见知。

真谛的是，Anthropic在录制Demo时，还遭遇了一些真谛的小插曲。

比如，在一次演示中，Claude不小心点击住手了一个万古辰运行的屏幕录制，导致通盘摄像都付诸东流。

而在另一次编码演示中，Claude则短暂「跑神」，起先津津隽永地浏览起黄石国度公园的像片。

总之，Claude如今的弘扬让东说念主对将来充满期待：AI操作电脑的才略将神速突出白虎意思，那一天，软件开发小白都能简略使用它。