Anthropic升级Claude AI:终止有害对话保护模型安全

2025-08-18人工智能

Image

新媒网跨境了解到,由Anthropic开发的Claude AI聊天机器人现已具备结束被认为“持续有害或滥用”的对话功能。据外媒TechCrunch此前报道,此功能已集成在Claude Opus 4和4.1版本中。这一新功能允许Claude在用户多次请求其生成有害内容后,作为“最后手段”干预并结束对话,以此来保护AI模型的“潜在福祉”。该措施旨在停止那些导致Claude表现出“明显困扰”的交流。

如果Claude选择提前结束对话,用户将无法在该对话中发送新消息。不过,他们仍可以创建新的聊天,并编辑和重试之前的信息,以继续原有话题。

在Claude Opus 4的测试期间,Anthropic发现该模型具有“稳健且一致的抗损害倾向”,尤其是在用户要求生成涉及未成年人的性内容,或提供可能引发暴力和恐怖主义的信息时。在这些情况下,Anthropic称Claude表现出了“明显困扰的模式”,并在有权力时倾向于结束有害对话。

STK269_ANTHROPIC_D

Anthropic指出,触发这种响应的对话属于“极端情况”,大多数用户在讨论具有争议性的话题时也不会遇到此限制。此外,该公司还明确指导Claude不要在用户表现出想伤害自己或对他人构成“迫切威胁”的情况下结束对话。Anthropic与在线危机支持服务提供商Throughline合作,为涉及自残和心理健康的提示开发相应的回应措施。

上周,随着AI模型的迅速发展引发更多安全担忧,Anthropic还更新了Claude的使用政策。目前,公司禁止用户利用Claude开发生物、核、化学或放射性武器,以及开发恶意代码或利用网络漏洞。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/16258.html

评论(0)

暂无评论,快来抢沙发~
Anthropic的Claude AI聊天机器人新增功能,可终止被认为有害或滥用的对话,保护AI模型。当用户多次请求生成有害内容,Claude会作为最后手段介入。该功能集成在Claude Opus 4和4.1版本中,旨在停止导致Claude表现出困扰的交流。Anthropic还更新了Claude的使用政策,禁止用于开发武器或恶意代码。
发布于 2025-08-18
查看人数 1665
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。