AI模型Claude Opus 4.1:编程准确率暴涨74.5%!跨境开发者红利期?

2025-08-06AI工具

Image

美国人工智能研究公司Anthropic于2025年第二季度正式发布Claude Opus 4.1模型升级版本。新媒网跨境获悉,该版本在编程能力、逻辑推理和自主任务处理等方面均有显著提升,目前已面向Claude Pro付费用户、Claude Code订阅用户及API开发者开放。

在技术性能方面,该模型在SWE-bench Verified编程基准测试中取得74.5%的准确率。日本乐天集团工程团队测试报告显示,新版本能精准定位代码问题且避免冗余修改。开发者平台Windsurf的实测数据表明,其性能提升幅度相当于此前Sonnet 3.7到Sonnet 4的迭代跨度。
Claude Opus 4.1 Improves Coding & Agent Capabilities

新媒网跨境了解到,此次升级主要聚焦四大应用场景:在AI代理领域,该模型在TAU-bench测试中展现出处理长周期任务的能力;编程功能支持3.2万输出token,可完成复杂代码重构;数据分析模块能处理专利文献等非结构化数据;内容生成质量在文本结构和语言流畅度方面均有优化。

安全性能方面,模型拒绝违规请求的比例提升至98.76%,对正常请求的误拒率维持在0.08%。Anthropic公司表示,在政治倾向性、歧视性内容及儿童安全等维度均未出现性能倒退。测试数据显示,其对抗提示注入攻击的能力较前代有所增强。

据外媒报道,此次更新采用平稳过渡策略,API接口与定价体系保持原有架构。Anthropic公司透露,更大规模的技术升级已在研发进程中。新媒网跨境注意到,该版本目前可通过亚马逊Bedrock、谷歌Vertex AI等云平台获取服务。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/10774.html

评论(0)

暂无评论,快来抢沙发~
Anthropic发布Claude Opus 4.1,编程、逻辑推理和自主任务处理能力显著提升。该模型在编程基准测试中表现出色,代码问题定位精准,性能提升幅度大。聚焦AI代理、复杂代码重构、数据分析和内容生成等应用场景,安全性能增强,已在亚马逊Bedrock、谷歌Vertex AI等云平台提供服务。
发布于 2025-08-06
查看人数 2020
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。