跨境图像描述：模型懂图不会说？9%鸿沟揭秘！

视觉智能：跨境电商的“新语言”，你真的懂它吗？

在当前全球贸易数字化浪潮中，中国跨境电商正以前所未有的速度发展。2025年的今天，我们比以往任何时候都更需要高效、精准地处理海量的视觉信息。商品图片、营销素材、用户反馈图片，这些视觉数据如同无声的语言，蕴含着巨大的商业价值。然而，如何让机器“读懂”这些图像，并将其转化为可被系统利用的文字信息，成为了摆在我们面前的关键挑战。这，正是图像描述（Captioning）技术的核心所在——它不仅是人工智能前沿的探索，更是跨境业务实现智能化升级的“信息桥梁”。

一、行业深思：图像描述，远不止“看图说话”那么简单

作为深耕跨境行业的我们，可能都曾感叹：视觉信息在营销、运营、客服等环节的重要性不言而喻。但令人惊讶的是，尽管图像处理技术发展迅速，我们对于“图像描述”这一核心能力的理解，却常常停留在表面。

在过去几年中，我与许多多模态团队交流发现，无论是搜索推荐、内容理解、智能助理，还是未来的代理系统，最频繁的产品需求之一就是：能否为这张图片、这份文档或这个商品生成一个“足够好”的描述？

然而，当团队尝试评估这些描述是否“足够好”时，问题就出现了：

缺乏适用性强的评估基准： 市面上鲜有能直接拿来评估图像描述质量的工具。
评估标准与实际脱节： 大部分现有评估方法仍停留在早期短文本描述的水平，与我们实际业务中复杂多样的应用场景相去甚远。
现有工具水土不服： 即使是一些概念提取或匹配的工具，也往往难以直接应用于真实生产环境。

这揭示了一个深刻的矛盾：

在工业界， 图像描述是支撑搜索、排序、内容理解、推荐系统乃至代理状态表示的“基础设施”。它将视觉信息转化为文字，为后续的各项业务逻辑提供输入。
在学术界， 图像描述的评估所受关注度相对较少，尤其缺乏那些易于理解、普适性强、成本效益高且对实际系统有用的评估方法。

正是为了弥合这一差距，海外报告（原报告中使用的名称为CaptionQA，在此统一改为符合要求的海外报告）应运而生。它旨在为学术界提供工业界的视角，同时也为工业界提供一个更科学、更扎实的评估工具——一个高密度、跨领域、更贴近实际需求的图像描述基准。

在设计这一评估框架时，我们遵循了几个核心原则：

回归描述本质： 评估标准需与我们对描述的真实需求保持一致，而非仅仅衡量传统数据集的标准。
避免数据泄露： 采用原生图像，规避那些可能已过度曝光于模型预训练数据中的流行数据集。
简洁直观的评分： 复杂的评分机制会降低基准的信任度和采用率，力求简单明了。
全面且高效： 团队需要快速获得结果和有效的错误分析，同时要避免高昂的计算成本。
通用性和可迁移性： 工业界应用场景千变万化，一个难以适应的基准就难以被广泛采用。

二、图像描述的本质：为何它是产业的核心？

图像描述任务历史悠久。早期，生成描述的目的是让模型模仿人类如何总结所见。随着多模态大语言模型（MLLMs）的演进，图像描述开始向更详细的方向发展，受到目标检测和场景图研究的影响。在学术框架下，一个“好的”描述通常被视为一种以对象为中心的描述，它会：

列举所有对象
描述每个对象的属性
有时还包括对象之间的关系

这种定义在学术界沿用了多年。

但在产业界，我们需要截然不同的东西

在真实应用中，图像描述的需求是多样、具体且高度任务依赖的——远远超出了学术界的解释。任何从事多模态产品的人都知道，图像描述的使用方式远比传统的“描述图像”范式复杂得多。在与多家公司和产品线合作，并与众多多模态团队交流后，我逐渐意识到一个重要事实：几乎每个多模态系统都依赖图像描述，但其目的并非“描述图像”，而是将视觉信息转化为有用的、可消费的文本。

在生产系统中，图像描述充当视觉信息的文本接口，支持下游组件，如检索、排序、摘要、推荐和代理推理。正是因为这种现实，当前那些假设图像描述仅仅是对象列表和属性描述的基准，才无法反映工业界的需求。

搜索与推荐：图像 -> 描述 -> 文本系统

在跨境电商、短视频平台和社交网络中，一个非常常见的流程是：
- 商品图片 -> 描述
- 视频帧 -> 描述
- 用户帖子 -> 描述
为何如此？原因在于：
- 用户查询本身就是文本。
- 大多数公司的检索/排序系统本质上都是基于文本的。
- 绝大多数公司根本不具备多模态搜索基础设施。
这一点至关重要：我们通常认为“每个人都有多模态搜索”，但实际上只有少数科技巨头拥有。大多数公司的搜索和推荐堆栈仍然是纯文本驱动的。因此，将图像转换为描述，成为许多公司解锁多模态能力的唯一实用方法。
企业服务/文档任务：数据库无法存储图像，它们存储描述

在企业（ToB）场景中，文档相关任务是一个巨大的类别：
- 报告
- 财务报表
- 新闻文章
- 合同
- 手册等
数据库无法直接对图像应用查询/连接/规则逻辑。因此，公司通常需要：
- 光学字符识别（OCR）
- 文档理解
- 信息提取
- 最终，将页面内容转换为类似描述的文本表示
在企业服务应用中，类似描述的文本已成为事实上的基础设施。
隐私与合规：许多公司“不能存储图像——只能存储描述”

出于隐私和合规原因，一些公司严格禁止：
- 存储用户图像
- 存储用户视频
- 访问任何未经安全审查的多模态数据
结果是，他们唯一被允许保留的是：
- 一个经过隐私清理的描述（可审计、可控制、可索引）
这导致了一个有趣的现象：在一些大型企业中，图像数据的生命周期极短。唯一持久存在的表示是描述，而非图像本身。
代理系统中的关键组件：“新”兴应用场景

在2023年以来迅速兴起的多模态代理系统和具身智能中，图像描述正成为工作流程的核心要素。图像描述越来越多地充当：
- 思维链（CoT）推理中视觉信号的文本载体。
- 代理状态的序列化表示。
- 感知与决策之间的桥梁。
这种趋势在近两年发展迅猛，我相信它将成为最重要的新兴方向之一——我们不容忽视。

不同公司对图像描述的要求截然不同

在工业界，“图像描述”并非一项任务——它是数十种不同任务的集合。

行业领域	图像描述核心关注点
跨境电商	品牌、价格、尺寸/规格、材质、详细属性描述，强调产品特性。
社交平台	自然图像，事件中心（发生了什么），对象中心（存在什么）。
企业服务/文档	OCR、表格结构提取、版面理解、业务字段提取。
短视频平台	场景切换、动作、对象-事件序列。
相册/手机制造商	人像、美化、地理位置、多场景融合。

这突出一个关键点：在工业界，图像描述不是一项单一任务——它是数十项任务。学术界的图像描述研究只涵盖了最简单的一种。

描述本质上是“信息载体”，而非简单的“描述”

多数情况下，我们并非为了“描述”图片而使用描述。我们之所以使用它，是因为：

我们需要一个文本载体，将图像中的信息提取并传输到下游任务中。

而描述，恰好是最方便、安全、紧凑且可控的表示形式。

换句话说：下游任务关心什么，描述就应该表达什么。它不需要无限详细，也不需要涵盖所有信息。目标不是“越长越好”，而是：描述越准确地捕捉到任务相关信息，就越好。 “详细描述”这个概念本身是模糊的——没有上限。但工业界的需求极其明确：简短而有效。

三、学术界与工业界之间的“鸿沟”

在学术界和工业界之间切换多年后，我越来越清楚地认识到：学术界所称的“图像描述技术”，与工业界真正需要的“图像描述能力”，几乎是两码事。

学术界将描述视为“描述任务”，工业界将其视为“信息接口”

在学术界，图像描述意味着：
- 生成一个描述性句子。
- 优化BLEU/CIDEr等指标。
- 在排行榜上力争上游。
但在工业界，描述的功能是：
- 作为搜索系统的输入。
- 作为推荐系统的输入。
- 作为文档结构化流程的输入。
- 一种规范化、可存储的数据表示。
- 代理状态和中间推理的一部分。
工业界并不关心“描述听起来有多好”。工业界关心的是：描述能否可靠地支持下游任务。
学术界优化“更多细节”，工业界优化“更高效率”

在学术界，“详细描述”本质上没有上限——更长的句子、更多的对象、更多的属性。但工业界需要的是：
- 简短而精确。
- 无幻觉。
- 聚焦关键信息。
- 低延迟。
- 对目标任务有效。
换句话说：工业界不需要“覆盖所有信息”，而只需要覆盖任务所需的信息。这本质上是不同的优化目标。
学术界评估“语言质量”，工业界评估“任务结果”

学术界使用BLEU/ROUGE/CIDEr。但工业界评估的是：
- 搜索是否变得更准确。
- 属性提取是否更稳定。
- 文档字段是否更完整。
- 代理能否更可靠地规划下一步行动。
描述是否“听起来像人类”是无关紧要的。关键问题是：描述能否提升任务性能？
代理场景使这种差距更加明显

在多模态代理中，模型必须将视觉信息整合到推理循环中。但LLM推理本质上是基于语言的，因此流程变为：

图像 -> 结构化语言（描述） -> 思维链推理

在这里，描述不是“描述”。它们是：
- 状态摘要。
- 工具输入。
- 中间推理步骤。
- 行动规划的基础信号。
然而，学术界几乎没有为代理设置设计的图像描述基准，这意味着学术图像描述研究与真实的工业需求渐行渐远。

四、海外报告（CaptionQA）：如何评估图像描述？

在奠定所有基础后，我们终于可以探讨核心问题：如何将图像描述这一混乱、多样、结构多变的特性，转化为一个可衡量、可解释、可扩展的评估框架？

海外报告的评估流程极其简单——仅分三步：

使用任何模型生成描述（提示语和模型均可互换）

您可以选择使用：
- 我们提供的短/简单/长/分类提示语，或
- 您自己定制的提示语
我们不限制描述的风格、格式或长度——模型可以自由表达。
一个固定的评估模型（Qwen-2.5-72B）回答我们精心设计的问答

关键点：评估器只看到描述——看不到图像。 这是海外报告的核心原则：描述是图像的文本替代品。如果一个描述真实地捕捉了图像，它就必须支持图像级别的问答。我们的问答涵盖对象属性、关系、布局、状态、OCR信息、动作以及更多概念类别。如果评估器未能回答，我们将记录：
- “无法回答” -> 覆盖范围不足
- 错误回答 -> 幻觉
- 正确回答 -> 忠实度和准确性
最终分数极其简单：纯准确率（0–100）

我们刻意避免了像BLEU/ROUGE/CIDEr这样复杂的指标。因为：
- 准确率可解释。
- 准确率易于调试。
- 准确率允许公平的模型间比较。
- 准确率对产品团队、管理者和研究人员都友好。
简而言之：一个好的评估指标应该能被所有人瞬间理解。

Screenshot 2025-11-25 at 7.56.21 PM

五、为何选择问答（QA）而非概念提取？这种设计有何深意？

我们尝试了许多方法——提取、匹配、自然语言处理工具——最终意识到：

问答具有极高的信息密度和无限的可扩展性

如果您想评估某些内容，可以直接提问——无需设计复杂的规则、分词器、词性标注器或概念解析器。
问答对人工标注和LLM自动生成都非常友好

教标注人员执行“概念提取”极其困难。但标注问答简单、直接且成本效益高。
问答评估链短，稳定性高

概念提取通常涉及：提取 -> 匹配 -> 评分。而问答则简单地是：描述 -> 回答 -> 准确率。链条越短，评估越稳定。
问答是统一的任务格式（LLM擅长此道）

LLM天生擅长问答，并能自然地将问答扩展到大批量。您无需复杂的提示工程来让模型“猜测”概念。

高密度（密集问答）是我们的核心思想

对于每个领域，我们构建一个概念模式。对于每张图像，我们平均创建至少50个问题。对于自然图像、跨境电商、文档和具身智能，我们设计的模式代表了从业者真正关心的问题。描述应该涵盖这些概念——因此我们相应地生成了大量问题。（我们仅公开25%的问答集。如需进行全密度评估，请提交您的描述，我们的团队将进行运行。）这种高密度问答设计使我们能够：

显著减少数据量。
覆盖更多概念维度。
更快地收敛。

低成本：用极少数据实现稳定评估

即使只有100张图像，一个模型在不同领域的得分也已趋于稳定。这意味着：

无需海量评估数据集。
评估可以完全在本地机器上运行。
任何公司——无论规模大小——都能负担得起使用它。

这一特性对于真正的工业应用至关重要。
model_performance_vs_images

易于迁移：您可以将海外报告（CaptionQA）复制到任何领域

我们开源了：

问答生成流程。
问答筛选和清理代码。
标注指南。
领域模式模板。

研究人员只需替换新的模式，即可将海外报告扩展到他们关心的任何项目或领域。海外报告使得每个领域都可能拥有自己的领域特定图像描述基准。

自采数据与多领域覆盖

我们手动收集并筛选了658张图像，涵盖四个不同领域。我们还邀请了每个领域的专家协助完善模式。根据他们的输入，我们选择了最能反映实际工业需求的四个领域：

自然场景
跨境电商
文档
具身智能

这些领域共同涵盖了非常广泛的图像描述应用场景。
taxonomy (1)

针对代理的评估能力

我们选择基于问答框架的另一个主要原因是，图像描述在多模态代理系统中几乎是必不可少的。在代理工作流程中，描述成为多模态状态的一种表示——模型“已知”内容的一个紧凑快照。描述作为中间信息存储，并且代理系统中的大多数下游任务都以问答的形式出现。代理要么回答问题，要么将描述作为其推理步骤的一部分。在许多情况下，问答只是思维链中的下一个步骤。我们相信未来的多模态代理将更依赖像海外报告（CaptionQA）这样的系统来诊断和量化这些中间描述状态的质量。

六、海外报告（CaptionQA）评估成果洞察

Screenshot 2025-11-28 at 7.22.33 PM

1. 模型性能对比

在阅读任何基准测试结果时，首先想到的问题自然是：“哪些模型更强？”我们使用海外报告评估了主流的开源和闭源视觉语言模型，结果揭示了一些有趣的趋势。

开源模型：Qwen3-VL和GLM-4.1V形成稳定的第一梯队。
在各种提示类型（长、简单、分类）中，Qwen3-VL和GLM-4.1V始终位居开源模型前两位。Qwen3-VL在所有设置中（短提示除外）整体排名第一。GLM-4.1V在所有开源模型中提供了最佳的文档领域性能。由于文档领域需要复杂的OCR（表格、图表、布局理解、结构化文本），GLM在此处的强劲表现符合预期。
闭源模型：GPT-5和Gemini-2.5-Pro依然保持领先。
如果我们暂时忽略短提示结果（闭源模型并非总为此优化），总体趋势是：GPT-5和Gemini-2.5-Pro构成顶级梯队。在文档领域，GPT-5明显优于Gemini-2.5-Pro，这表明GPT-5在处理复杂文档理解（OCR、图表、布局）方面更为成熟。
开源与闭源的差距正在迅速缩小。
一个特别值得关注的发现是：Qwen3-VL的整体性能现在已经非常接近GPT-5和Gemini-2.5-Pro，尤其是在自然场景、跨境电商和具身智能等领域。换句话说：在“描述即信息接口”的基础上，开源模型已经具备了一流的竞争力。 这对于整个行业来说是一个非常令人鼓舞的信号，意味着未来我们有更多灵活、可控的选择来构建和优化我们的跨境业务智能化系统。

2. 不同提示语的影响

在海外报告中，我们评估了四种常见的描述提示语——短、简单、长、分类——涵盖了从传统描述到现代多模态大模型广泛使用的指令遵循风格。以下是这四种提示语的平均输出长度对比：
Screenshot 2025-11-25 at 1.36.51 AM
Screenshot 2025-11-28 at 7.29.02 PM

尽管较长的提示语确实能产生更长的描述，但模型性能并非简单地随着输出长度增加而提高。我们观察到以下几个值得分享的趋势：

短提示语：传统短描述已无法满足现代多模态需求。
短提示语类似于早期的一句话描述（例如，经典的CLIP风格描述）。我们的结果显示：
- 生成的描述过短。
- 信息覆盖范围极其有限。
- 海外报告的得分持续偏低。
- 对下游任务的实用价值很小。
  这与我们的预期一致：短描述在现代多模态应用中基本不可用，尤其当任务需要细粒度语义细节时。
简单提示语：“详细描述这张图片”是最平衡和稳定的设置。
简单提示语对应于最广泛采用的详细描述格式：“详细描述这张图片。”其特点是：
- 描述明显更长。
- 信息密度更高。
- 概念覆盖更完整。
- 模型在各领域性能更强。
  许多现代多模态大模型实际上就是使用这类提示语进行训练的，因此它自然地反映了它们的“真实”描述能力。我们推荐将“简单”作为默认提示语，并将其视为海外报告的标准设置。
长提示语：描述变长，但信息密度并未提高。
长提示语旨在促使模型“尽可能多地写”。事实上，平均长度显著增长——从约356字增至510字。但性能几乎没有提升。原因很简单：模型对信息密度存在上限。更长的描述多半是重复或扩展措辞，并未增加新信息。这意味着：
- 长描述不等于好描述。
- 视觉理解存在一个无法通过冗长文字超越的上限。
- 盲目追求更长的描述会导致收益递减。
  这也解释了为何在构建描述数据集时，仅仅“多写”并不能带来实质性的质量改进。
分类法提示语：将“测试覆盖范围”告知模型反而导致其失败。
这是我们研究中最令人惊讶的部分。我们的直觉是：“如果我们给模型提供问答概念模式，它们就可以‘填补空白’并覆盖更多信息。”但结果恰恰相反：
- 模型在所有领域的得分显著下降。
- 许多模型表现出不稳定的指令遵循能力。
- 生成的描述中出现严重的任务漂移。
- 模型专注于“遵循格式”而非图像理解。
  这揭示了一个非常实际的问题：即使是现代多模态大模型，在处理复杂的结构化指令时仍然面临挑战，尤其是当指令类似于某种模式时。尽管多模态预训练和后训练通常包含结构化提示，但很少有研究系统地审视这种失败模式。海外报告清晰地揭示了这一弱点。
🌟 分类法提示语的失败揭示了多模态代理未来面临的重大挑战。
在许多代理系统中，指令往往：
- 自动生成。
- 结构复杂。
- 非常长。
- 多阶段且嵌套。
  这导致了指令的规模化——指令变得越来越长、越来越复杂，模型难以遵循。这引发了几个重要问题：
- 当面对未来超长、自动生成的指令时，模型如何保持可靠性？
- 如何避免任务漂移？
- 如何同时实现良好的图像描述和强大的指令遵循能力？
  这是我们在海外报告研究中一个意外的发现，我们相信这是未来研究一个极具价值的方向。

3. 与VQA的对比

VQA与海外报告（CaptionQA）：为什么模型在VQA上表现强劲，但在图像描述上依然薄弱？
我们将模型的行为分为两种独立的能力：

基于图像的问答（QA-on-image）： 直接观察图像回答问题（类似于传统VQA）。
基于描述的问答（QA-on-caption）： 仅从描述中回答问题，不看图像（海外报告）。

如图所示，向右侧移动时，差距越来越大，这意味着：模型的视觉理解能力（VQA）远强于其通过描述表达这种理解的能力。

更强的模型显示出较小的VQA -> 描述差距，但差距依然显著。
对于GPT-5、Gemini-2.5-Pro和Qwen3-VL等顶级模型，我们观察到：
- 基于图像的问答：95%–98%
- 基于描述的问答：85%–90%
  存在9%–11%的差距。这意味着：更强的模型确实在清晰地提取和表述视觉信息方面表现更好。
中等水平和许多开源模型显示出更大的差距（20%–30%以上）。
一些开源模型（尤其是中等水平的）表现出：
- 基于图像的问答：约90%
- 基于描述的问答：60%–75%
  差距可能超过30%。这表明：模型“理解了”，但它们“无法清晰地表达出来”。换句话说：
- 它们的视觉感知能力并不差。
- 但它们的描述生成极其不稳定。
- 信息缺失、混乱或漂移（任务漂移非常常见）。
  只要您依赖描述而非原始图像，所有这些问题都会立即浮现。这解释了一个常见的行业现象：许多模型在VQA排行榜上表现出色，但在实际应用中却产生无法使用的描述。