让AI像人类一样操作电脑!Anthropic上新Claude 3.5 Sonnet模型新能力
10月23日消息,OpenAI竞争对手Anthropic宣布推出升级版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。
根据Anthropic介绍,升级版Claude 3.5 Sonnet获得了一项革命性的新技能:能够像人类一样操作电脑。同时,升级版Claude 3.5 Sonnet模型各项能力均超越之前版本,尤其在代码方面取得了特别显著的进步,进一步巩固其行业领先地位。
新款Claude 3.5 Haiku则在许多评估中与Anthropic之前最大的型号Claude 3 Opus的性能相匹配,其成本和速度与上一代Haiku相同。
升级后的Claude 3.5 Sonnet现在可供所有用户使用。从今天开始,开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机测试版进行构建。新的Claude 3.5 Haiku将于本月晚些时候发布。
升级版Claude 3.5 Sonnet:超强编码能力,公测“计算机使用”功能
据介绍,升级版Claude 3.5 Sonnet在业界基准测试中表现卓越,在SWE-bench Verified编码测试的得分由33%跃升至49%,超越所有目前公开可用的模型。在TAU-bench(评估模型灵活运用工具和API综合能力的基准测试)中,其零售领域得分从62.6%提高到69.2%,航空领域从36.0%提高到46.0%。性能全面提升的同时,Claude 3.5 Sonnet的成本与之前版本保持一致。
另外,Anthropic早期的客户反馈表明,升级后的Claude 3.5 Sonnet代表了人工智能编码的重大飞跃。GitLab测试了DevSecOps任务的模型,发现它提供了更强的推理能力(跨用例高达10%),没有增加延迟,使其成为支持多步骤软件开发过程的理想选择。
同时,Anthropic在Claude 3.5 Sonnet公测版中引入了一项突破性的新功能:计算机使用。通过API接入,开发人员可以指导Claude使用计算机,就像人们看屏幕、移动光标、单击按钮和输入文本一样。
Anthropic表示,Claude 3.5 Sonnet是第一个在公测中提供“计算机使用”的AI模型。该功能现阶段是实验性的,预计随着时间的推移,这种能力会迅速提高。
Anthropic介绍,在“计算机使用”能力上,没有制作特定的工具来帮助Claude完成个人任务,而是教它一般的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以使用这个新兴功能来自动化重复流程,构建和测试软件,并执行研究等开放式任务。
Anthropic构建了一个API,允许Claude感知计算机界面并与之交互。开发人员可以集成此API,使Claude能够将指令(例如,“使用我的计算机和在线数据填写此表单”)转换为计算机命令(例如,检查电子表格;移动光标打开web浏览器;导航到相关网页;使用这些网页中的数据填写表单等等)。
效果方面,在评估人工智能模型像人一样使用计算机的能力的OSWorld上,Claude 3.5 Sonnet在屏幕截图(screenshot-only)类别中的得分为14.9%,明显高于次佳人工智能系统的7.8%。当提供更多步骤来完成任务时,Claude的得分为22.0%。
不过Anthropic也强调,Claude 3.5 Sonnet目前使用计算机的能力并不完美。人们毫不费力地执行的一些操作——滚动、拖动、缩放——目前给都Claude带来了挑战,鼓励开发人员从低风险任务开始探索。
据悉,Asana、Canva、Cognition、DoorDash、Replit和浏览器公司已经开始探索这些功能,执行需要几十个甚至几百个步骤才能完成的任务。例如,Replit正在使用Claude 3.5 Sonnet的“计算机使用”和UI导航功能来开发一个关键功能,该功能在为Replit Agent产品构建应用程序时对其进行评估。
下面是Claude 最新演示的 AI 操作电脑的视频截图
在这个演示中,Claude浏览了不同的标签页,收集了所需信息,并填写了一个表单,所有电脑操作均由Claude生成。
Claude 3.5 Haiku:最快速模型
新推出的Claude 3.5 Haiku是Anthropic下一代速度最快的模型。在与Claude 3 Haiku相同的成本和相似的速度下,Claude 3.5 Haiku在每个技能集上都有所提高,甚至在许多智能基准上超过了Anthropic上一代最大的型号Claude 3 Opus。
Claude 3.5 Haiku在编码任务上表现得尤为出色。例如,它在SWE bench Verified上的得分为40.6%,超过初代版Claude 3.5 Sonnet和GPT-4o。
凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务,以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。
Anthropic介绍,Claude 3.5 Haiku将于本月晚些时候提供,并随后提供图像输入能力。
Anthropic是由前OpenAI员工创立的公司,亚马逊是Anthropic的重要投资者。今年3月,亚马逊宣布已完成对 Anthropic 的 40 亿美元投资,以深化推进生成式 AI 技术的发展。
Anthropic于2023年3月发布了Claude 3系列模型Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus,此后便按照各型号进行能力升级迭代。今年6月,Anthropic发布最强大模型Claude 3.5 Sonnet,拥有相比前代模型2倍的推理速度和1/5的调用成本。(果青)
台积电ADR大涨近10%至205美元创新高,AI热潮提振营收预期10月18日消息,台积电ADR昨日(10月17日)收盘205.84美元,较前一交易日上涨了18.36美元,涨幅达9.79%,盘中更是创造1997年10月在美国挂牌以来最高价212.60美元。注:ADR全称是AmericanDepositoryReceipts(美国存托...
李开复谈国内大模型价格战:如果大家宁可赔光通输也不让你赢,那我们就走外国市场5月22日消息,在21日公布的最新LMSYS盲测竞技场最新排名中,零一万物Yi-Large取得总榜排名世界模型第7、中文分榜排名与GPT4o并列第一的成绩。零一万物CEO李开复表示,中国大模型与美国大模型的差距已经从一年多前的7...
iPhone 16生成式AI功能合作伙伴可能包括百度 消息称双方已有探讨3月24日消息,据外媒报道,在OpenAI训练的人工智能聊天机器人ChatGPT大火之后,谷歌、Meta、亚马逊等公司纷纷加大了在生成式人工智能和大型语言模型研发及应用上的投入,已有多款应用引入了相关的技术,微软去年2月...
华为、小米抢滩手机大模型今年上半年,一个接一个的大模型发布,企业之间上演了一场“百模大战”。到了下半年,大模型有些“退潮”,取而代之的是应用端的落地,让更多的用户对大模型有了深切的感知,同时也在变革着终端硬件的发展方向。其中...
宁畅发布2024年全新战略,“全局智算”力夺AI计算头筹3月29日消息,宁畅发布“全局智算”战略,并揭幕了包括“AI算力栈”在内的一系列战略性新品与系统解决方案,旨在有效解决大模型产业落地的全周期问题。以系统全面性应对需求复杂性“当前,大模型发展不断深化,其在...
大模型挑选指南来了!涵盖六种情况下的选择方案,为你匹配最佳模型|来自沃顿商学院教授
西风发自凹非寺量子位|公众号QbitAI最近Claude2亮相、谷歌Bard支持中文、OpenAI推出CodeInterpreter(代码...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
外媒:苹果正在全球范围内寻找生成式人工智能人才
8月7日消息,据外媒报道,苹果公司正在全球范围内寻找生成式人工智能(AI)人才。随着OpenAI旗下AI聊天机器...
中国电信:在通用大模型方面今年还会有新的成果
在昨日晚间的2023半年度业绩会上,中国电信公告称,2023年上半年营收2586.8亿元,同比增长7.7%;净利润201.5...