AI巨头押注AI代理,软件股一周蒸发2850亿刀。

近期,全球跨境领域迎来了一项引人注目的技术动态:人工智能(AI)巨头Anthropic与OpenAI不约而同地推出了基于“AI代理团队管理”概念的新产品。这一发展标志着AI行业正从“AI作为对话伙伴”向“AI作为被委派的劳动力”的模式转变。新媒网跨境获悉,这一概念的推出,正值软件股市场波动剧烈之际,据报道,其相关讨论曾导致软件行业市值一周内蒸发约2850亿美元。
尽管业界对这种“AI代理管理”模式在实际应用中的效果仍持观望态度,目前的AI代理在纠错方面仍需大量人工干预,且尚无独立评估能证实这些多代理工具在可靠性上超越单个开发者独立工作。然而,两大AI公司已明确将重心转向AI代理技术。
Anthropic:Claude Opus 4.6与“代理团队”新体验
Anthropic此次贡献的核心是其最强大的AI模型Claude Opus 4.6的新版本,并辅以Claude Code中的一项名为“代理团队”(agent teams)的功能。这一功能允许开发者启动多个AI代理,将一项任务拆分为独立的子任务,进行自主协调,并同步运行。
在实际操作中,“代理团队”呈现为一个分屏终端环境,开发者可通过快捷键在不同子代理间切换,直接接管其中任何一个,同时观察其他代理继续工作。Anthropic方面介绍,此功能最适用于“可拆分为独立、且需要大量阅读工作(如代码库审查)的任务”。目前,“代理团队”正作为研究预览版提供给用户。
Opus 4.6是Anthropic旗舰模型的一次重大更新,接替了去年11月发布的Claude Opus 4.5。作为Opus模型家族的首次突破,它(测试版)支持高达100万个token的上下文窗口,这意味着该模型能够在单次会话中处理更大规模的文本或代码。
在基准测试方面,Anthropic表示Opus 4.6在多项评估中均超越了OpenAI的GPT-5.2(早于当天发布的模型)和谷歌的Gemini 3 Pro。这些评估包括:代理编码测试Terminal-Bench 2.0、多学科推理测试Humanity’s Last Exam,以及在线查找难以定位信息的测试BrowseComp。值得关注的是,OpenAI在同一天发布的GPT-5.3-Codex模型,似乎在Terminal-Bench测试中重新夺回了领先地位。
在ARC AGI 2测试中,Opus 4.6得分为68.8%,该测试旨在衡量AI解决对人类而言简单但对AI模型而言困难问题的能力。相比之下,Opus 4.5得分为37.6%,GPT-5.2为54.2%,Gemini 3 Pro为45.1%。外媒提示,鉴于AI模型能力的客观衡量仍是一门相对新兴且不稳定的科学,AI基准测试结果应审慎看待。
Anthropic还指出,在名为MRCR v2的长上下文检索基准测试中,Opus 4.6在100万token变体下的得分为76%,远高于其Sonnet 4.5模型的18.5%。这一差距对于“代理团队”的使用场景至关重要,因为在大型代码库中工作的代理需要跟踪数十万个token的信息,而不会丢失主线。
Anthropic方面表示,Opus 4.6的API定价与Opus 4.5保持一致,每百万输入token收费5美元,每百万输出token收费25美元;对于超过20万token的提示,则按高级费率收取10美元/37.50美元。Opus 4.6目前已在claude.ai、Claude API以及所有主流云平台上线。
OpenAI:企业级平台Frontier与AI“共同工作者”愿景
与此同时,OpenAI则发布了企业级平台Frontier。OpenAI将其描述为一种“雇佣AI共同工作者”的方式,旨在帮助AI承担人们在计算机上已经完成的许多任务。Frontier为每个AI代理分配独立的身份、权限和记忆,并可连接到现有的业务系统,如客户关系管理(CRM)、工单管理工具和数据仓库等。
OpenAI的商务对商务部门总经理巴雷特·佐夫(Barret Zoph)在外媒采访中表示:“我们正在做的,从根本上讲,就是将代理转型为真正的AI共同工作者。”
尽管外界对这些AI代理作为“共同工作者”的宣传充满期待,但从实际使用经验来看,这些代理更像是现有技能的放大工具,而非营销语境下所暗示的完全自主的“共同工作者”。它们能够快速生成令人印象深刻的草稿,但仍需要人类持续进行纠正和引导。
Frontier的发布,距离OpenAI为其AI编码工具Codex推出新的macOS桌面应用程序仅三天。OpenAI高管将Codex应用程序描述为“代理的指挥中心”。Codex应用允许开发者并行运行多个代理线程,每个线程通过Git工作树在代码库的独立副本上工作。
与此同时,OpenAI于当天还发布了GPT-5.3-Codex,这是一个驱动Codex应用的新AI模型。OpenAI声称,Codex团队曾使用早期版本的GPT-5.3-Codex来调试模型的训练运行、管理部署以及诊断测试结果。此情况与OpenAI在去年12月接受外媒采访时透露的信息相似。该公司表示:“我们的团队对Codex加速自身开发的能力感到非常震惊。”
在代理编码基准测试Terminal-Bench 2.0上,GPT-5.3-Codex取得了77.3%的得分,较Anthropic当天发布的Opus 4.6高出约12个百分点。
AI角色转变:从对话者到“AI中层管理者”
这些新产品的共同点在于用户角色的转变。开发者或知识工作者不再仅仅输入提示并等待单一响应,而是更像一个“主管”或“经理”,负责分派任务、监控进度并在代理需要指导时介入。在这种愿景下,开发者和知识工作者实际上成为了AI的“中层管理者”——他们不再亲自编写代码或进行分析,而是委派任务、审查产出,并确保下属的AI代理不会悄无声息地出错。这种转变是否会成为现实,或者说这是否是一个好主意,目前仍在业界广泛讨论之中。
市场波动:AI代理引发的软件股震荡
Anthropic和OpenAI的这些发布,正值软件股异常波动的时期。在今年1月30日,Anthropic发布了其代理生产力工具Cowork的11个开源插件,Cowork本身是一个通用工具,允许Claude访问本地文件夹以执行工作任务,而这些插件则将其扩展到特定的专业领域,包括法律合同审查、保密协议分类、合规工作流程、财务分析、销售和市场营销等。
新媒网了解到,截至2月2日(周二),据报道,投资者对这些发布作出反应,导致软件、金融服务和资产管理公司的市值蒸发了约2850亿美元。高盛的一篮子美国软件股当天暴跌6%,这是自去年4月受关税驱动的抛售以来,其单日最大跌幅。外媒汤森路透(Thomson Reuters)领跌,跌幅达18%,欧洲和亚洲市场也未能幸免。
投资者普遍担忧的是,AI模型公司正在打包提供完整的“工作流”解决方案,直接与现有软件即服务(SaaS)供应商竞争,即便这些工具能否真正实现这些任务,目前尚无定论。OpenAI的Frontier平台可能加剧了这种担忧:其设计理念是让AI代理以最少的人工干预登录应用程序、执行任务并管理工作。外媒《财富》(Fortune)杂志甚至将Frontier描述为“企业的操作系统”。
OpenAI应用部门首席执行官菲吉·西莫(Fidji Simo)否认了Frontier将取代现有软件的说法,她在接受外媒采访时表示:“Frontier实际上是在承认我们不会自己构建所有东西。”
不论这些“共同工作”应用程序是否能真正兑现其承诺,这种技术融合的趋势已是显而易见。Anthropic的企业产品负责人斯科特·怀特(Scott White)为此实践创造了一个或许会引起一些争议的词汇。他在接受外媒采访时说:“过去一年半里,每个人都看到了软件工程领域发生的转变,‘情境编码’(vibe coding)作为一个概念开始出现,人们现在可以凭借他们的想法做事情。”怀特补充道:“我认为我们现在正向‘情境工作’(vibe working)转变。”
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-agents-hit-software-stocks-lose-285b.html


粤公网安备 44011302004783号 











