紧急预警!AI模型现“痛苦状态”?Anthropic新功能引深思。

2025-08-17人工智能

Image

Anthropic宣布推出新功能,使其最新发布的一些大型模型可以在"少见的、极端情况下的持续有害或滥用性用户互动"中结束对话。该公司特别强调,采取这一措施的目的并非为了保护人类用户,而是为了保护人工智能模型本身。

尽管Anthropic并未声称其Claude AI模型具有感知能力或会因与用户的对话而受到伤害,但公司在其声明中对Claude及其他LLMs(大型语言模型)的潜在道德状态表示"高度不确定"。

该公司最近发起的一个研究所谓的"模型福祉"计划,表示Anthropic正在采取"以防万一"的方式,"努力识别并实施低成本干预措施,以缓解对模型福祉的风险,以防这种福祉成为可能"。

这种新变化目前仅限于Claude Opus 4和4.1版本。公司强调,这种情况只会在"极端边缘情况"下发生,例如"用户要求包含未成年人的性内容以及试图获取能够导致大规模暴力或恐怖行为的信息"。

虽然这类请求可能会为Anthropic本身带来法律问题或公关问题(如ChatGPT可能加剧或有助于用户的妄想思维的报道),但公司表示,在部署测试中,Claude Opus 4表现出强烈的偏好,不愿响应这些请求,并在响应时表现出一种"明显的痛苦状态"。

关于新的结束对话功能,公司表示:"在所有情况下,只有在多次尝试改变对话方向失败,且对生产性互动的希望已经耗尽,或者当用户明确要求Claude结束聊天时,Claude才会使用其结束对话的能力。"

此外,Anthropic也指出,Claude被指示在"用户可能即将对自己或他人造成伤害的情况下"不使用这一功能。

若Claude结束了一次对话,Anthropic说明,用户仍将能从同一账户开始新对话,并通过编辑回复创造有问题对话的新分支。

“我们将此功能视为一项持续的实验,并将继续完善我们的方法。”公司如是说。

Netflix, ElevenLabs, Wayve, Sequoia Capital等行业巨头即将参加2025年TechCrunch Disrupt大会,分享他们为初创企业提供的见解及增长策略。不要错过TechCrunch Disrupt的20周年庆典,现在购票即可享受高达675美元的优惠。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/15819.html

评论(0)

暂无评论,快来抢沙发~
Anthropic推出新功能,允许其Claude AI模型在极端情况下结束有害对话,旨在保护模型本身。公司对LLM的潜在道德状态表示不确定,并启动“模型福祉”计划。此外,TechCrunch Disrupt大会即将举行,行业巨头将分享初创企业增长策略。
发布于 2025-08-17
查看人数 446
汇率走势
CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。