AI幻觉致金融损失!OpenAI揭露系统性缺陷

2025-09-10AI工具

Image

新媒网跨境获悉,OpenAI 近期发布的一项研究指出,人工智能(AI)系统在生成内容时经常出现“幻觉”现象,即编造看似合理但实际错误的答案,而非坦诚表达不确定性。这一现象并非偶然的缺陷,而是当前 AI 训练和评估体系中固有的系统性产物。研究人员强调,这一问题在高风险行业如金融、支付和医疗等领域尤为突出,可能带来实际损失,但通过改进评估方法,AI 的可靠性有望得到提升。

在 AI 的预训练阶段,模型通过海量数据集学习语言模式,其核心任务是预测下一个单词或 token。OpenAI 的研究团队,包括来自美国的研究人员 Adam Tauman Kalai 和 Ofir Nachum,认为即使训练数据完美无缺,幻觉仍会出现。这是因为预测任务本质上类似于二元分类中的错误模式:模型在遇到不确定信息时,倾向于生成“合理”的猜测,而非承认无知。例如,当模型被问及某位名人的生日时,它可能提供多个错误日期,即使正确答案从未出现在训练数据中。

新媒网跨境了解到,这种幻觉行为在具体测试中表现得尤为明显。在一项实验中,开源模型被要求回答论文作者 Adam Tauman Kalai 的生日,结果模型自信地给出了三个不同但均错误的日期。另一个测试中,模型被要求计算单词“DEEPSEEK”中字母“D”的数量,答案从 2 到 7 不等,但没有一个正确。这些例子表明,模型在缺乏可靠信息或任务表征不足时,会本能地“填补空白”,通过生成流畅但错误的输出来满足查询。

为什么后训练阶段无法根除这些错误?研究指出,评估系统——如基准测试和排行榜——无形中鼓励了模型的“虚张声势”。大多数广泛使用的测试只奖励正确答案,而对“我不知道”或表达不确定性的回应给予零分。这意味着,一个总是猜测的模型在得分上会持续优于诚实承认知识空白的模型。正如研究人员所言,模型始终处于“应试模式”,而非学习表达不确定性的价值。这种评分规则导致即使最先进的系统也难以避免幻觉,改进架构、规模或对齐技术都无法改变这一根本压力。

对于依赖准确性的行业来说,这一结论具有重要启示。AI 幻觉不是随机怪癖,而是系统性问题,可能对企业运营和消费者体验造成实质影响。例如,在金融领域,错误信息可能导致交易失误或风险评估偏差;在支付行业,幻觉可能引发安全漏洞或用户信任危机。值得注意的是,一些保险公司已开始提供针对 AI 幻觉事故的保障,反映出这一问题在实际应用中的成本。

新媒网跨境认为,解决幻觉问题并非依靠更多测试,而是重新设计评估体系。研究人员建议修改基准测试,给予不确定性部分学分,类似于标准化考试中对错误猜测的扣分机制。通过引入明确的置信阈值——例如,模型只有在置信度超过 75% 时才回答——可以重新调整激励,促使 AI 更诚实可靠。这种改进不仅有助于提升 AI 在高风险决策中的可信度,还能推动整个行业向更健康的方向发展。

展望未来,随着 AI 技术不断演进,减少幻觉将成为关键挑战之一。行业需要更多合作,开发更智能的评估工具,并鼓励模型在不确定时主动表达。这不仅符合技术发展的趋势,也体现了诚信和可靠性的核心价值观。新媒网跨境预测,通过持续创新,AI 系统有望成为人类更值得信赖的伙伴,助力各行各业实现数字化转型。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-hallucinations-cause-financial-losses.html

评论(0)

暂无评论,快来抢沙发~
OpenAI最新研究揭示AI系统存在固有“幻觉”问题,即生成看似合理但实际错误的内容。该现象在高风险行业如金融、医疗领域尤为突出,可能导致实际损失。研究指出需通过改进评估方法(如引入置信阈值)来提升AI可靠性,而非仅依赖技术优化。
发布于 2025-09-10
查看人数 126
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。