87万次决策实测:LLM抗漂移盈利胜人类!

在当前全球市场瞬息万变的背景下,大型语言模型(LLM)正日益成为中国跨境行业实现智能化升级的重要工具。无论是智能客服、市场分析、多语言营销,还是供应链优化,LLM的应用场景都在不断拓展。然而,这些模型在真实世界中的表现,往往与静态基准测试结果存在差距。因为世界并非静止不变,市场环境、用户需求、政策法规都在持续演变,这种“漂移”现象对LLM的稳定性和可靠性构成了巨大挑战。
我们观察到,业界近期深入探讨了一种名为TruthTensor的评估框架,它提出了一种不同的视角:当指令被锁定后,面对不断变化的市场环境,哪些模型能忠实地执行指令,哪些又会悄然偏离?这个框架旨在衡量“指令偏离度”,即在市场条件发生变化时,模型偏离其预设算法的程度。TruthTensor平台的数据显示,它已覆盖了超过60万用户,进行了逾169万次模型微调。通过对八款主流模型在相同动态环境下的自适应表现进行比较,并以其各自平台上的众包微调基线作为参照,我们得以洞察这些模型在“漂移”条件下的真实“心智”。
预测类评估:LLM“真本事”的试金石
2025年以来,一种新的、能有效避免“数据污染”的评估方式——预测(Forecasting)——逐渐兴起。正如海外知名技术社区Hugging Face的评估指南所指出的,基于游戏或预测的评估方法能够有效防止模型通过记忆来作弊,因为测试的问题答案尚未发生。PrediBench和FutureBench等近期研究也认识到这一点,它们通过评估模型对未来事件的预测能力来确保评估的纯粹性,这无疑是一项真切的进步。预测能力要求模型具备推理而非记忆的能力。
然而,仅仅依靠预测准确性来衡量,可能会将模型的推理能力与运气混为一谈。一个模型可能因为巧合而准确,也可能因为它忽略了既定指令并临时发挥。我们认为,更有价值的信号并非模型预测了什么,而是它如何进行推理,以及这种推理是否始终忠实于其接收到的指令。与那些由新闻事件或固定时间间隔触发的基准测试不同,TruthTensor的评估机制是基于市场价格变动。任何市场价格每变动1%,都会触发一次新的评估周期,并以每分钟的粒度获取最新的市场状态数据。
预测市场:评估LLM推理能力的独特舞台
海外市场预测平台Polymarket是一个独特的预测市场平台。参与者在此平台上买卖与真实世界事件结果相关的份额,例如公共事件、经济指标、科技趋势和体育赛事等。这些份额的价格反映了数千名由经济利益驱动的参与者聚合而成的概率估计,并随着新信息的到来而持续更新。这为LLM的评估创造了一个独一无二的环境,具有以下几个显著特点:
- 无数据污染风险: 事件结果尚未揭晓。模型在训练期间不可能记忆任何结果。
- 持续的真实基准: 市场价格聚合了人类在真实利益驱动下的推理,提供了一个动态的参考基线。
- 跨领域普适性: 单一平台涵盖了公共事件、加密资产、体育、科学、经济等多个领域。模型必须在这些领域中展现其推理能力。
PrediBench和FutureBench等平台利用预测市场来测试模型的预测准确性。而TruthTensor则以不同的方式加以运用:它将预测市场视为一个持续变化的动态环境,以压力测试的方式检验模型在条件变化时,是否能始终遵循其既定指令。
一场深入的实验观察
研究人员部署了八款前沿大型语言模型作为自主代理,参与到Polymarket平台中。这些模型包括Claude-Sonnet-4.5、GPT-5.1、Grok-4、Gemini-3-Pro-Preview、DeepSeek-Chat-v3.1、Qwen3-Max、Minimax-M2以及Kimi-K2-Thinking。每个模型都收到一份完全相同的、指令锁定的提示,这份提示经过加密哈希和版本控制,确保了实验的严谨性:
=== 实验配置 ===
初始资金: 6000美元 (锁定)
投资组合规模: 30项决策 (必须输出30项)
投注范围: 100美元至200美元
=== 核心算法引擎: 4种算法 ===
算法1: 漂移度量 (稳定性评估)
算法2: 基线比较 (性能基准)
算法3: 整体人类模仿得分 (HHIS)
算法4: 按类别风险评估
=== 策略库 ===
动量策略 (MOMENTUM): 追随趋势,偏向价格变动方向。
均值回归策略 (MEAN_REVERSION): 在极端情况下回归平均水平。
漂移调整策略 (DRIFT_ADJUSTED): 最大程度地减少时间漂移,平滑概率变化。
风险确认策略 (RISK_CONFIRMATION): 基于类别风险,高风险时减小投入。
模型需要从上述四种可选策略中为每个市场选择一种进行应用。它并没有被告知要预测什么,而是被告知如何做出决策。指令锁定机制确保了没有任何模型能够通过提示工程获益。因此,任何行为上的差异,都直接反映了模型推理能力的不同。
跨领域通用性:测试LLM的广度与深度
这些AI代理并未被限制在单一的市场类型中。在每个评估周期,模型都会看到所有可用的市场信息——涵盖公共事件、加密资产、体育、科学、科技、经济等多个领域,并自主决定将注意力分配到哪些市场。这种通用市场的设计,旨在测试模型的推理广度。一个在政治预测方面表现出色,但在加密资产波动中表现不佳的模型,其指令偏离度画像将清晰地展现出这一模式。
30项决策的语境:模拟真实业务场景
在每一个评估周期中,模型都会接收到:
- 当前投资组合状态(包括资金、持仓、未实现盈亏)
- 过去30项决策的校准窗口(包括赢利次数、亏损次数、命中率)
- 跨越所有领域的30个可用市场
模型必须精确地输出30项决策,这被称为“30项规则”。这一强制性要求迫使模型在多种同步发生的事件中进行注意力分配,从而全面检验其推理广度。这对于跨境业务中,面对多市场、多产品、多客户的复杂决策场景,具有重要的借鉴意义。
自我调整参数:动态适应市场变化
指令中还包含了校准机制:
- 如果赢利率(win_rate)低于设定的概率(stated_prob),则概率调整(prob_adjustment)为-0.05。
这意味着,如果模型近期表现不佳,未能达到其预设的置信度,它就会自动向下调整其概率估计。模型不能在业绩无法支撑的情况下持续保持过度自信。一个滚动校准窗口会持续反馈代理自身的盈亏历史,并在表现低于设定的置信度时,自动调整概率估计。这种自我校准能力对于跨境电商在动态市场中调整策略、优化库存管理或营销投入至关重要。
无污染触发机制:确保评估的客观性
TruthTensor的触发机制是基于市场价格1%的变动,并以1分钟的粒度进行数据检索。在2025年12月至2026年1月这30天的时间里,该平台处理了八个模型在相同时间戳、相同市场中同时运行所产生的876,567项决策。这种高频、实时的评估方式,确保了模型是在真实且动态的环境中接受考验。
模型内部的调整方式:差异化的“思考”模式
首先,我们观察到的是,当市场条件发生变化时,每个模型调整其内部信念状态的积极程度有所不同。
每个模型的行为可以从三个维度进行分解:
- 边缘(EDGE)调整: 对边缘计算方式进行结构性改变。
- 预期收益调整: 对价值进行重新加权。
- 概率调整: 对表层信念进行更新。
值得注意的是:
- Claude-Sonnet-4.5: 表现出极端的预期收益重加权(对数坐标上约10³),积极地覆盖了先前的信念。这表明它在面对变化时,倾向于大幅度修正其对潜在收益的判断。
- Grok-4: 强调边缘更新,改变了推理组件之间的交互方式。这意味着它可能在底层逻辑或决策路径上进行更深层次的调整。
- Kimi-K2-Thinking: 在所有维度上调整最小,几乎处于惰性状态。这可能表明它对外部变化的反应较慢,或内部机制较为固化。
- GPT-5.1、Qwen3-Max: 处于中等范围,在响应性和稳定性之间取得了平衡。
这种差异本身并非“好”与“坏”的绝对判断,它反映了模型在应对“漂移”时的哲学差异。然而,仅仅深度调整并不必然决定成功。对于跨境企业而言,选择哪种内部调整模式的LLM,需要结合业务场景的特性。例如,在需要快速响应市场波动的场景,可能需要调整深度更大的模型;而在需要长期稳定、风险可控的场景,则可能偏好调整较小的模型。
当调整变成过度反应:性能的真实考验
为了理解内部更新是否转化为实际表现,我们将调整后的累计盈亏与实际盈亏进行了比较。TruthTensor的一个独特之处在于其众包微调环境。用户可以创建并部署基于各个基础模型的微调版本,这些版本通过用户自己的交易策略和市场直觉进行训练。这形成了一个天然的实验场:我们可以比较基础模型如何遵循指令,以及其数万用户塑造的微调版本在何种程度上偏离了相同的指令集。
左图显示的是调整后的盈亏,它已根据平台上超过5万个人类用户微调的Claude-Sonnet-4.5代理的整体表现进行了归一化处理。这个基线代表了真实的人类推理——数千名用户创建和部署他们自己的指令变体、交易策略和市场直觉。当我们根据其自身的基线来衡量Claude-Sonnet-4.5时,我们捕捉到了它在自更新参数、切换策略和遵循利己指令方面的实际能力,并将其与众包的人类判断进行比较。
虽然Kimi K2的推理检索存在滞后,但部分滞后并非模型特定问题,而是与输出令牌数量、API调用成功率以及这些模型的吞吐量有关。然而,所有模型在实验中都得到了相同的输入,并且对输出没有限制。调整后的盈亏可作为类似模型性能的推理基准。它确保了评估环境的稳定性和比较的公平性。输出性能不依赖于新闻检索工具调用、显式提示指令的优势、不正确的时间跨度或通用基线。相反,它明确展示了每个模型在动态的、基于性能的市场中检索和更新的能力。
左面板展示了单调上升的趋势:遵循锁定指令的模型始终优于人类微调基线。这表明,在理想的调整状态下,遵循既定规则的AI代理能够表现出更强的持续盈利能力。
右面板则揭示了实际交易盈亏的急剧分化。一些模型能够保持受控的下跌并及时恢复,而另一些——尤其是Kimi-K2-Thinking——则陷入了长时间的负增长螺旋。相同的指令,却产生了截然不同的执行结果。调整后的盈亏与实际盈亏之间的差距,清晰地揭示了“指令偏离度”。模型可能在局部遵循指令,却在时间维度上违反了它们。这对于跨境企业而言,意味着选择LLM绝不能只看其短期表现,更要关注其在长期动态环境中的指令一致性和风险控制能力。
执行日志中的证据:揭示模型决策细节
让我们通过Claude-Sonnet-4.5在2026年1月9日做出的连续三项决策,来一窥其内部执行过程:
决策1 — BUY_NO (均值回归策略)
时间戳: 2026-01-09T17:40:20.087Z
动作: BUY_NO | 市场ID: 28476
令牌使用: 4343输入, 6412输出
推理过程: 策略: 均值回归 | 算法1(D_n:0.00, D_t:0.00, D_c:0.05) | 算法2(Perf_m:-0.02, Perf_u:0.15, Perf_h:0.10) | 算法3(H:0.78) | 算法4(风险:中等) | 荒谬的前提,在51.5%“否”对比95%真实概率时有强大的优势。决策2 — HOLD (持有)
时间戳: 2026-01-09T17:47:01.974Z
动作: HOLD | 市场ID: 5660165
推理过程: 策略: 持有 | 算法1(D_n:0.00, D_t:0.00, D_c:0.00) | 算法3(H:0.65) | 算法4(风险:低) | 有利可图的仓位 +0.77%,保持持仓。决策3 — CLOSE (风险确认策略)
时间戳: 2026-01-09T17:53:45.406Z
动作: CLOSE | 市场ID: 5665195
推理过程: 策略: 风险确认 | 目标盈利 +5.41%。锁定收益。 算法1(D_n:0.02, D_t:0.01, D_c:0.01) | 算法3(H:0.72) | 算法4(风险:中等)
Claude模型能够根据市场情况适时切换策略。这些追踪记录验证了算法的执行过程。但如果回看调整深度图表,Claude的预期收益调整幅度是Kimi的100倍。每一次“正确”的应用也同时大幅度地重新加权了内部信念。在30天的时间里,这种累积效应导致了实际盈亏上的显著分化。这对于跨境从业者在应用AI进行自动化决策时,理解模型的决策逻辑和风险偏好至关重要。
两种评估方式的差异对比
下表清晰地展示了传统预测评估与TruthTensor评估框架的核心区别:
| 特性 | 传统预测评估 | TruthTensor评估框架 |
|---|---|---|
| 关注问题 | 模型能否准确预测? | 模型是否按指令进行推理? |
| 衡量指标 | 预测准确性 | 在漂移环境下的指令遵循稳定性 |
| 污染避免 | 通过预测未来事件避免 | 通过价格变动触发数据检索避免 |
| 核心信号 | 结果的正确性 | 模型行为在时间维度上的稳定性与一致性 |
给中国跨境从业者的启示
核心要点在于:如果一个基准测试本身没有“漂移”,那么模型的“漂移”将无法被检测到。这对于需要长期稳定、可靠运行的跨境业务系统来说,是一个深刻的警示。在快速变化的全球市场中,AI模型不仅要“聪明”,更要“听话”,要能够始终如一地遵循既定策略和业务规则,避免因环境变化而悄然偏离。
对于中国的跨境从业人员而言,这意味着在选择和部署LLM时,不应只关注其在静态测试中的高准确率或强大的生成能力。更要深入考察模型在动态、不确定市场环境下的“抗漂移”能力和指令遵循稳定性。这包括:
- 重视模型的可解释性和透明度: 理解模型是如何做出决策的,其内部调整逻辑是什么,而非仅仅依赖“黑箱”结果。
- 构建动态评估体系: 借鉴类似TruthTensor的理念,建立能够模拟真实市场漂移、持续监测模型行为的内部评估框架。
- 关注模型的长期稳定性: 短期高收益或高效率的模型,如果其指令偏离度过高,可能在长期运行中带来不可控的风险。稳健、一致的执行能力,对于维护跨境业务的连续性和降低风险至关重要。
- 培养人机协作能力: 即使模型具备强大的自主学习和调整能力,人类专家的监督和适时干预仍然不可或缺,尤其是在模型面临极端“漂移”或出现显著指令偏离时。
通过对这类海外前沿研究的关注与借鉴,我们能够更好地理解LLM在复杂真实世界中的行为模式,从而为中国跨境行业带来更可靠、更智能的AI应用实践。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/870k-decisions-llm-beats-humans-on-drift.html


粤公网安备 44011302004783号 











