2025 AI:数据人力4倍工程师!跨境抢占新高地!
2025年,全球人工智能技术正经历着一个关键的演进阶段。随着AI能力的日益成熟,业界对于数据在模型训练中的作用有了更深刻的理解。过去,AI的训练数据往往大量依赖于网络抓取或通过低成本的标注服务获得。然而,进入2025年,一个显著的趋势是,越来越多的AI企业开始将目光投向高质量、定制化的专有数据,并倾向于将数据采集工作内化。这不仅仅是技术上的转变,更是企业在竞争中寻求差异化优势的战略布局。
一个生动的案例发生在2025年夏季。泰勒(化名)和她的室友,戴着GoPro摄像头,记录下她们绘画、雕塑以及日常家务的全过程。她们仔细同步着这些影像,以便AI系统能够从多个角度获取相同的行为数据。这份工作虽带来不少挑战,比如长时间佩戴摄像头可能导致身体不适,但她们也获得了可观的报酬,这使得泰勒得以将大部分时间投入到艺术创作中。据泰勒回忆,她们每天清晨醒来,完成常规活动后便戴上摄像头,同步好时间,接着做早餐、洗碗,然后各自投入到艺术创作中。她们每日需产出五个小时的同步视频,但泰勒很快发现,这实际上需要七个小时来完成,以便留出足够的休息和恢复时间。她提到,长时间佩戴会引起不适,摘下后额头上甚至会留下红色印记。泰勒作为图灵实验室(Turing Labs)的数据自由职业者,通过一家外媒与该公司建立了联系。
图灵实验室的目标并非是让AI学会绘画,而是通过这些视频数据,训练AI掌握序列问题解决和视觉推理等更为抽象的能力。与依赖大规模文本的大语言模型不同,图灵实验室的视觉模型完全基于视频进行训练,并且大部分视频数据由其团队直接采集。除了像泰勒这样的艺术家,图灵实验室还与厨师、建筑工人、电工等各行各业的“手作”劳动者合作。图灵实验室的首席AGI官苏达山·西瓦拉曼(Sudarshan Sivaraman)向外媒表示,这种人工采集是获得足够多样化数据集的唯一途径。他指出,通过对多种蓝领工作的详细捕捉,图灵实验室在预训练阶段获得了丰富的数据多样性。一旦这些信息被充分捕获,模型将能够理解特定任务是如何被执行的。
图灵实验室在视觉模型上的实践,正是当前AI企业数据处理方式转变的一部分。过去,训练数据集多是从网络上自由抓取或由成本较低的标注人员完成,而到了2025年,企业们正投入更高的成本,寻求精心策划和筛选的高质量数据。随着AI原始能力的逐渐确立,企业们开始将专有训练数据视为构筑自身竞争优势的关键。许多公司不再将此项任务外包给承包商,而是选择由内部团队亲自承担这项工作。
另一个值得关注的案例是Fyxer公司。创始人理查德·霍林斯沃斯(Richard Hollingsworth)在经过一系列初期探索后发现,通过使用一系列小型模型,并配合高度聚焦的训练数据,能够取得更好的效果。与图灵实验室有所不同,Fyxer是在现有基础模型之上进行构建,但其核心洞察力是共通的。霍林斯沃斯先生向外媒表示,他们意识到“数据质量而非数量,才是真正决定性能的关键。”
在实际操作层面,这意味着Fyxer在人员配置上做出了一些非常规的选择。霍林斯沃斯先生提到,在公司创立初期,用于训练模型的行政助理人数,有时会是工程师和管理人员的四倍。他解释说:“我们雇佣了许多经验丰富的行政助理,因为我们需要训练模型掌握邮件回复等基本要领。这是一个高度以人为本的问题,找到优秀的人才非常困难。”数据采集的步伐从未放缓,但随着时间推移,霍林斯沃斯先生对数据集的选择变得更加审慎,在后期训练阶段,他更倾向于使用数量更少但质量更高的精选数据集。正如他所言,数据的质量而非其数量,才是真正决定模型表现的关键要素。
当合成数据被应用时,数据质量的重要性尤其突出。合成数据能够极大地拓展可能的训练场景范围,但同时也放大了原始数据集中任何潜在缺陷的影响。在视觉模型方面,图灵实验室估计其约75%到80%的数据是合成的,这些数据都是从原始的GoPro视频中推断和生成。然而,这使得保持原始数据集的最高质量变得更为关键。图灵实验室的西瓦拉曼先生指出:“如果预训练数据本身的质量不高,那么无论你用合成数据做什么,其最终效果也不会好。”这强调了基础数据质量在整个AI模型构建链条中的决定性作用。
除了对数据质量的考量,将数据采集工作内化还蕴含着强大的竞争逻辑。对于Fyxer公司而言,艰巨的数据采集工作是该公司抵御竞争、构建“护城河”的最佳方式之一。在霍林斯沃斯先生看来,任何人都可以将开源模型集成到自己的产品中,但并非所有人都能找到专业的标注人员,并将其训练成一个可行的产品。他向外媒强调:“我们相信,最好的方式是通过数据,通过构建定制模型,通过高质量、由人类主导的数据训练来实现。”这凸显了人工参与和精细化数据管理在AI时代的核心价值。
从中国跨境行业的视角来看,全球AI数据策略的这一转变,为我们提供了重要的参考和启示。在2025年这个时点,高质量、专有数据已成为驱动AI创新和商业成功的核心要素。对于致力于国际市场拓展的中国企业而言,理解并适应这一趋势,对于构建全球竞争力至关重要。
首先,中国跨境企业应更加重视数据作为战略性资产的地位。传统的将数据视为成本中心或仅仅是技术部门支撑资源的观念,已无法适应当前AI发展的需求。企业需要从顶层设计层面,将数据视为未来产品和服务差异化的关键,并为此进行长期的、有规划的投入。这包括设立专门的数据战略部门、建立数据治理体系、以及持续投入于数据采集与标注的基础设施建设。
其次,数据采集的方式正从“广撒网”向“精准捕捞”转变。对于中国跨境电商、游戏出海、智能硬件制造商等行业而言,这意味着需要在特定目标市场、特定用户群体以及特定应用场景中,进行精细化、场景化的数据采集。例如,出海的电商平台应关注海外用户在购物决策、偏好表达、售后反馈等环节的真实数据;游戏公司则需要深入分析海外玩家的游戏行为、社区互动以及文化偏好。这些第一手、高保真度的数据,将帮助AI模型更好地理解当地市场需求,提供更精准的服务和产品。
再者,对“数据工匠”的培养和重视将成为新的趋势。随着对数据质量和精细化程度要求的提高,懂得行业知识、具备专业标注技能、理解AI模型需求、并能进行有效数据治理的复合型人才,将变得稀缺和宝贵。中国企业在出海过程中,不仅需要AI工程师,更需要一支能够理解不同文化背景、具有行业洞察力的数据采集与标注团队。他们能够确保数据的真实性、准确性和合规性,从而为AI模型的训练提供坚实的基础。
此外,合规性与安全性将是跨境数据战略中不可忽视的一环。随着全球数据隐私法规(如欧盟GDPR)的日益严格,中国跨境企业在海外进行数据采集、传输和利用时,必须严格遵守当地的法律法规。这不仅是降低合规风险的要求,也是赢得海外用户信任、树立企业良好品牌形象的关键。企业需要建立完善的数据安全体系,确保数据在全生命周期内的安全性,并对数据跨境传输流程进行严格的合规性审查。
从未来发展预测来看,这种对专有、高质量数据的投入,将促进AI技术向更深层次、更细分领域发展。拥有独特数据集的企业,将能够在特定垂直市场中建立起难以逾越的技术壁垒。对于中国跨境行业而言,这意味着:
- 垂类AI应用崛起: 专注于特定行业(如智能物流、跨境金融、本地生活服务)的AI应用将更具竞争力。这些应用将基于该行业的专属数据进行训练,从而提供远超通用AI的精准度和实用性。
- 数据联盟与生态构建: 考虑到高质量数据采集的高昂成本,未来可能会出现更多企业间的数据联盟或合作模式,共同构建特定领域的共享数据集,或形成数据生态圈,以分摊成本、整合资源。
- 中国本土数据优势: 中国庞大的用户基数和多样化的应用场景,为生成海量的真实世界数据提供了独特条件。中国企业可以利用本土市场优势,打造具有中国特色和国际竞争力的专有数据集,并在全球AI竞争中占据一席之地。例如,在中文语境下的多模态数据、针对中国消费者行为的电商数据,都可以成为独特的资产。
综上所述,2025年全球AI行业对于数据策略的深刻调整,正提示着中国跨境从业人员,必须将数据提升到前所未有的战略高度。关注全球领先企业的实践,理解数据质量、专有性以及人工参与的核心价值,并在自身业务中积极实践,构建高质量数据资产,将是我们在国际市场中持续发展、赢得未来竞争的关键所在。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/2025-ai-human-data-4x-eng-cb-edge.html

评论(0)