SYNTH数据集:AI训练成本降50倍,跨境智能新拐点!

当前,大型语言模型(LLMs)已成为科技领域的热点。自GPT-3在2023年前问世以来,大多数大型语言模型主要依赖于庞大的网络档案数据进行训练。然而,在2024年间,领先的人工智能实验室开始重新审视这一传统策略。他们意识到,为了推动模型在推理能力和代理行为(Agentic models)方面取得突破,需要大量的、通常未经文本记录的思想轨迹、行动步骤或工具调用数据。正是基于这样的背景,一项名为SYNTH的通用合成数据集应运而生。
SYNTH数据集的出现,标志着传统预训练范式的一次根本性转变:它提出了一个核心问题——如果我们能专注于培养模型的推理能力,并侧重于真正关键的知识和技能同化,结果会怎样?现有的经典基准测试,如MMLU(大规模多任务语言理解)、gsm8k(小学数学问题)和MATH(复杂数学问题),其本质都基于高中程度的习题集合,这在某种程度上已体现了对这种假设的认同。SYNTH正是源自50,000篇维基百科关键文章,并在此基础上扩展成了一个涵盖数学练习、创意写作、信息提取及有来源综合等多种问题及解决方案路径的广泛集合。尽管在标准预训练数据集中可能也存在类似的痕迹,但它们往往是孤立且带有噪声的,这最终会减缓学习过程,并延误有价值推理技能的习得。
研究团队利用SYNTH数据集训练了两款先进的小型推理模型。这两款模型仅使用了不到2000亿个Token进行训练,这比达到类似或更低性能水平的模型所需的数据量减少了10到50倍。其中,Baguettotron模型在主要的行业基准测试(如MMLU、gsm8k、HotPotQA)中表现出色,达到了同类最佳水平。而参数量为5600万的Monad模型,作为目前已知的最小可行模型,在相同的基准测试套件上展现出非随机性的性能表现,有望成为该领域的重要竞争者。
这项最新的研究工作,为小型模型的数据效率开辟了新篇章。通过这项工作,研究人员观察到以下几个关键的发现,它们共同描绘了合成数据训练在小型模型领域的新前景:
- 低成本高效能的路径:基于推理导向的合成数据,模型能够以较低的计算成本达到行业领先水平。例如,最终的模型训练运行仅消耗了不到1000小时的H100算力。即使包括数据生成和所有实验在内,整个项目也仅用了20000小时的H100算力,这主要得益于法国Genci/Jean Zay计算资源的有效利用。这一效率表明,在特定条件下,高性能的AI开发不一定需要天文数字般的算力投入。
- 克服“模型崩溃”的策略:扩展任务覆盖范围和数据来源有助于解决合成数据生成中常见的挑战,例如“模型崩溃”问题。SYNTH数据集不仅限于英语,也不是单一轮次的交互数据。它包含相当比例的其他欧洲语言内容,并支持多轮对话场景,极大地丰富了模型的学习环境,增强了模型的泛化能力和鲁棒性。
- 高质量开放数据源的价值:相较于来源存疑的大规模数据集合,高质量的、小规模的开放数据源正展现出日益增长的价值。这强调了数据质量而非单纯数量在AI模型训练中的决定性作用。
- 数据发布合规性与开放生态:将开放许可下的种子数据与不受限制的模型输出相结合,在大多数司法管辖区内解决了数据发布和共享的合规性问题,为开放生态系统提供了重要支持,促进了AI研究成果的广泛传播和应用。
构建开放的合成数据实验室
SYNTH数据集的构建融合了多种合成数据流水线。这意味着其合成数据并非简单地通过大型模型提示生成,而是通过将更小的、经过精细调优的模型整合到复杂程度不一的工作流中实现。这一方法论的转变主要受到以下四个关键因素的驱动:
- 推理经济性:通过优化数据生成流程,有效控制了计算成本,使得高性能AI模型的训练更加经济可行。
- 基础真实性(Grounding):确保生成的数据具有坚实的知识基础,避免模型产生“幻觉”或不准确的信息。
- 数据多样性:通过多样的生成策略和数据源整合,显著提升了数据集的丰富性和多样性,以应对更广泛的任务和场景。
- 结果可验证性:部分流水线支持形式化的检查或使用LLM作为评判员进行质量评估,确保了合成数据的质量和有效性。
研究团队发现,即使以牺牲部分数据量为代价,剔除那些质量不佳或推理链条扭曲的数据,也能显著提升模型的整体性能。实际上,这种方法意味着整个系统超越了其单个组成部分的简单叠加。至关重要的是,用于合成数据生成的模型可以访问到最终训练模型无法直接获取的信息,例如形式化数学问题的最终数字答案、百科全书信息或过去的对话交流记录。在此基础上,它们通过模拟“不知道答案”的状态来生成推理轨迹和答案。这种“逆向推理”(backreasoning或traceback)过程是训练小型推理模型的核心基石:模型并非直接面对现成答案,而是在持续的答案构建过程中进行学习。
SYNTH合成数据流水线的概览显示,为实现这一目标,团队从LLM的实际应用中汲取了大量灵感。每个流水线的核心构建模块包括:
- 精细调优模型:这些模型旨在接收结构化输入并生成结构化输出,而非依赖于定制化的提示词。
- 规模化推理流程编排:通常涉及多个步骤和输入,以实现大规模的推理任务管理。
- 嵌入模型赋能的种子搜索与检索扩展:通过嵌入模型提升了种子数据搜索和检索的效率与准确性。
研究团队预计,随着SYNTH数据集将扩展到更具代理能力的应用场景,LLM训练与部署之间的这种紧密联系将进一步加深。
SYNTH数据集以“记忆核心”为中心构建,即维基百科的“关键文章”集合。在过去的二十年间,数千名贡献者精心挑选了一系列百科全书应包含的核心主题,并将其分为五个层级,从一级(10篇文章)逐步扩展到五级(50,000篇文章)。SYNTH数据集以所有五级文章为起点,并通过有针对性地扩展Wikidata知识图谱,进一步增加了对物理学、化学、法律等更专业领域的覆盖。维基媒体企业(Wikimedia Enterprise)的“结构化维基百科”项目,通过直接解析HTML格式的维基百科文章,解决了MediaWiki语法造成的大部分格式问题,并提供了清晰、按章节组织的维基百科页面版本,这极大地提升了该资源的可访问性和可用性。
基于这一初始核心,SYNTH以模块化的方式逐步构建,纳入了更广泛的、可操作化的任务和流水线,从而涵盖了小型推理模型预期的大多数应用场景:
| 任务类型 | 主要功能与描述 |
|---|---|
| 记忆/检索 | 通过从不同知识库(主要是维基百科关键文章)反向翻译的查询,并结合嵌入搜索进行扩展,实现信息的记忆与高效检索。 |
| 检索增强生成(RAG) | 与记忆流水线类似,但涉及更多来源(最多10个),模型可以访问这些来源,专注于验证信息而非单纯的回忆,以生成更准确、更可靠的内容。 |
| 算术问题 | 收集了约3000个形式化的练习题,主要来自Kimina数据集,并通过随机变化初始变量进行扩展,旨在提升模型的数学推理能力。 |
| 编辑任务 | 涵盖了从翻译到信息提取或校正等多种文本修改任务。合成模型会根据输入的具体内容自动选择最合适的编辑操作。 |
| 创意写作 | 结合维基百科的种子信息(作为知识和环境背景)与一系列随机约束进行创作,部分灵感来源于法国的奥利波(Oulipo)文学流派。这类任务通常包括“唇语限制写作”(lipograms,例如在写作中不使用字母'e'),旨在培养模型的创造性和约束下生成能力。 |
| 多轮对话 | 基于已生成的单轮交互,从所有过去的练习中提取信息,创建出更复杂、更自然的连续多轮对话,提升模型的交互能力。 |
目前,SYNTH数据集约有20%的内容是多语言的,主要侧重于Common Corpus中代表性的欧洲主要语言,包括法语、德语、西班牙语、意大利语和波兰语,以及少量荷兰语和拉丁语内容。值得注意的是,研究团队有意将代码内容排除在SYNTH之外,原因是考虑到这将需要大量的额外基础设施开发,从而显著延迟本项目的发布。
SYNTH数据集是围绕与AI联盟OTDI合作建立的一套合成数据开放标准而设计的。研究团队实施了合成数据发布和重用方面的两项关键要求:
- 模型归属:由于主要的开放权重模型(如Qwen、DeepSeek、GPT-OSS)不再对合成输出施加限制,这在当前已基本可行。
- 种子数据归属:合成流水线中使用的每一段文本都已被归属,并且由于原始数据在CC-By-SA许可下可用,因此可以重新发布。
我们相信,开放的合成环境比封闭环境更具潜力。为了进一步发展,合成数据流水线现在亟需与专业领域和行业进行更广泛的合作,并熟悉现有的大规模开放和可互操作的数据源。
深层推理模型的重要性
研究团队在SYNTH数据集上训练了两款推理模型:Baguettotron(3.21亿参数)和Monad(5600万参数),后者据我们所知是迄今为止最小的可行语言模型。这两款模型除了完全在合成推理语料库上进行训练外,还共享一个经过SYNTH控制实验验证的非传统设计选择:极高的深度。如下方的模型示意图所示,Monad拥有64层,而Baguettotron则达到了80层。
Monad和Baguettotron的内部结构,其设计灵感来源于Sebastian Raschka。Monad和Baguettotron均使用法国Jean Zay超算中心的16块H100显卡,并基于HuggingFace的Nanotron框架进行训练。这种配置使得快速实验和迭代成为可能,例如Monad的训练时间不到六小时。Baguettotron沿用了为欧洲语言优化的标准Pleias分词器,而Monad则使用了在SYNTH的英语部分训练的自定义分词器:这是控制参数空间的关键措施,将Token嵌入的维度从2000万降低到不到200万。
研究团队在三个主要行业基准测试(MMLU用于通用推理和记忆、gsm8k用于数学、HotPotQA用于检索)以及从维基百科数据集反向翻译的自定义合成基准测试上评估了这两款模型。后者在评估记忆能力方面更为便捷,有效避免了MMLU与百科全书数据源之间可能存在的潜在差异。
截至本次训练周期结束时,Baguettotron的性能达到了同类最佳水平。这与“语言模型物理学”的假设高度一致:针对推理任务和模式进行训练,能够促使“高级技能的早期且持续的出现”。相比之下,仅依赖网络爬取数据进行预训练的小型模型,即便能达到非随机结果,也通常需要万亿级别的Token数据量。而Baguettotron在训练的最初两小时内(从第9000训练步开始),就已经在MMLU上展现出稳定的推理信号。
Baguettotron在训练过程中MMLU上的结果,展示了非常早期的推理信号。SYNTH数据集的这一独特特性,使得研究团队能够进行超出有限消融实验范围的模型架构控制实验。通过经验测量,研究人员发现增加层数能持续带来性能提升。目前的假设是,更深的架构能更好地受益于密集的推理数据,因为模型更频繁地接触到需要密集计算或知识互联的字符串序列。此外,深层架构通过增加数据同化的惯性,也有助于减轻表层学习的问题。
将合成数据实验室视为“上下文工程”
在SYNTH项目上的工作,促使研究团队对“训练数据”的定义有了不同的思考。他们不再是单纯地收集各种互联网文本,期望模型能从中学习一切。相反,他们是刻意地设计和工程化特定的能力:概念间的语义桥接、查询扩展、多语言协调、基于约束的推理等。合成数据流水线创造的是“形塑数据”(shaped data)。这些数据旨在灌输特定的转换方式、特定的信息连接方式以及特定的推理模式。
目前,全面的合成数据训练或许还不能真正构建一个“家庭版GPT-5”。然而,我们相信它已经能够对前沿模型产生变革性的影响。当前主流的AI部署范式通常假设一个简单的架构:收集相关信息,将其“倾倒”到基础模型的上下文窗口中,然后期望最佳结果。这种方式某种程度上确实有效,但它效率极低且容易失败。从合成数据效率中我们获得的真正启示不仅仅是“你可以以非常低的成本训练更小的模型”,更是“上下文准备与模型本身同样重要”。
在设计合成数据流水线时,研究团队模拟了一系列在实际生产环境中活跃部署的任务和工作流程。这一过程最终演变为对小型微调模型、带有硬编码约束的符号方法以及检索流程的实际编排,从而实现了比其单个组件更高程度的智能。
设想一下,如果我们不再将原始企业数据直接发送给生成式模型(无论是开源还是闭源),而是首先将其路由通过一个工程层,以以下方式塑造数据,那将会怎样:
- 理解领域本体论并语义丰富查询:使得查询能够更好地匹配特定领域的知识体系,提升检索和生成的准确性。
- 将多语言内容协调为一致的表示形式:对于跨境业务尤其重要,确保不同语言的信息能在模型内部得到统一且准确的处理。
- 生成揭示推理模式的合成变体:帮助模型识别和学习更深层次的推理结构。
- 通过情境化推理结构丰富数据:为模型提供更丰富的上下文信息,使其在复杂场景下做出更明智的判断。
- 通过检索、迭代搜索或(生成式)数据图探索现有知识库中的新关系:促进知识的深度挖掘和创新性连接。
- 将复杂过程分解为集成式的生成式和符号式工作流,并进行顺序检查:提升处理复杂任务的鲁棒性和可控性。
- 通过合成基准评估领域特定性能:提供针对特定应用场景的定制化评估标准,确保模型表现符合预期。
这样的工程层并不会取代基础模型,它将是为基础模型准备上下文,使其工作效率显著提高。我们可以将其视为一个预处理层,但这个预处理层并非仅仅应用规则,而是真正理解上下文含义。
展望未来
在接下来的几个月里,研究团队将集中精力开展以下工作:
- 发布更多合成数据生成流水线的细节:这将有助于行业更深入地理解其运作机制,促进技术的交流与发展。
- 探索特定领域的适应性应用:例如,在法律、医疗、技术文档等垂直领域,探索如何针对性地优化模型性能,提升专业知识处理能力,使其更好地服务于各行各业的需求。
- 实施关于记忆和持续学习的控制实验:这将为构建更智能、更适应动态环境的AI系统提供宝贵经验,以应对快速变化的知识体系。
- 测试不同的上下文准备架构模式:持续优化这一预处理层,以实现更高效、更智能的上下文管理,进一步提升模型的实用性。
- 与早期合作伙伴开展实际部署工作:通过实际应用验证其价值,并根据反馈进行迭代优化,推动技术从实验室走向市场。
对于中国的跨境从业者而言,这些前沿研究动态具有深刻的参考价值。随着全球贸易日益数字化和智能化,语言模型的效率与推理能力将直接影响跨境电商、国际物流、海外营销和客户服务等多个环节。SYNTH这类高效、专注于推理训练的合成数据方法,预示着未来我们能够以更低的成本、更快的速度训练出处理多语言、多任务的轻量级AI模型。
例如,在跨境电商领域,高效的AI模型可以帮助企业自动生成高质量的多语言产品描述,优化海外市场营销文案,甚至在实时客户服务中提供更精准、更具情境感的智能问答。通过“上下文工程”的方法,企业可以将复杂的业务数据(如商品库存、客户订单、物流信息等)经过智能预处理,再喂给基础模型,从而显著提升模型处理业务逻辑的准确性和效率,减少“幻觉”现象,提升用户体验。
此外,对“深层推理模型”的研究也表明,小型模型并非只能完成简单任务。通过优化的架构和训练方法,它们也能在复杂推理任务中展现出卓越性能,这对于资源有限但又需要高性能AI解决方案的跨境中小企业来说,无疑是一大福音。中国的跨境企业应密切关注这些技术发展,积极探索将合成数据与高效推理模型应用于自身业务场景,以期在全球激烈的市场竞争中获得先发优势。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/synth-data-50x-ai-cost-cut-cross-ai-breakthrough.html


粤公网安备 44011302004783号 













