Anthropic升级Claude AI：终止有害对话保护模型安全

新媒网跨境了解到，由Anthropic开发的Claude AI聊天机器人现已具备结束被认为“持续有害或滥用”的对话功能。据外媒TechCrunch此前报道，此功能已集成在Claude Opus 4和4.1版本中。这一新功能允许Claude在用户多次请求其生成有害内容后，作为“最后手段”干预并结束对话，以此来保护AI模型的“潜在福祉”。该措施旨在停止那些导致Claude表现出“明显困扰”的交流。

如果Claude选择提前结束对话，用户将无法在该对话中发送新消息。不过，他们仍可以创建新的聊天，并编辑和重试之前的信息，以继续原有话题。

在Claude Opus 4的测试期间，Anthropic发现该模型具有“稳健且一致的抗损害倾向”，尤其是在用户要求生成涉及未成年人的性内容，或提供可能引发暴力和恐怖主义的信息时。在这些情况下，Anthropic称Claude表现出了“明显困扰的模式”，并在有权力时倾向于结束有害对话。

Anthropic指出，触发这种响应的对话属于“极端情况”，大多数用户在讨论具有争议性的话题时也不会遇到此限制。此外，该公司还明确指导Claude不要在用户表现出想伤害自己或对他人构成“迫切威胁”的情况下结束对话。Anthropic与在线危机支持服务提供商Throughline合作，为涉及自残和心理健康的提示开发相应的回应措施。

上周，随着AI模型的迅速发展引发更多安全担忧，Anthropic还更新了Claude的使用政策。目前，公司禁止用户利用Claude开发生物、核、化学或放射性武器，以及开发恶意代码或利用网络漏洞。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/16258.html