英伟达重磅!新加坡88万AI合成人,打造本土主权AI!

在全球人工智能技术浪潮汹涌而来的当下,各国都在积极探索如何在推动AI创新的同时,确保其发展符合本国国情与社会价值。新加坡,作为亚洲乃至全球在数字治理和人工智能领域具有前瞻性的国家,长期以来致力于构建既富创新活力又受负责任治理框架约束的AI生态系统。他们通过建立可互操作的治理框架、深入开展隐私保护研究以及制定清晰的合成数据指导原则,为全球展现了“主权AI”不仅仅是技术层面的独立,更深层次地关乎信任、透明度以及与本土规范的紧密契合。
近日,一项重磅消息引发了业界的广泛关注。全球领先的计算技术公司英伟达(NVIDIA)正式发布了Nemotron-Personas-Singapore数据集。新媒网跨境获悉,这是一套专为新加坡本地开发者和研究人员量身定制的、开创性的合成数据集。它的出现,旨在支持新加坡在构建主权AI系统方面的努力,为本地AI模型的训练和评估提供了一个本土化、文化情境化且高度隐私保护的数据基础。
这项重要发布并非单打独斗,而是与新加坡人工智能国家计划(AI Singapore, 简称AISG)携手推出。AISG是由新加坡国家研究基金会(NRF)发起的一项国家级计划,其核心使命在于全面提升新加坡的人工智能能力。值得一提的是,AISG也是SEA-LION项目的创建者,这个开放的多模态AI模型家族,旨在深入理解东南亚地区的语言、文化和特定情境。此次合作,双方共同展望未来,计划将数据集扩展至涵盖东南亚地区更多样的语言,以服务更广泛的区域AI发展需求。
Nemotron-Personas-Singapore数据集依据CC BY 4.0许可协议开放,这意味着它能够同时支持商业和公共部门的AI开发项目,并且在整个过程中,不依赖任何个人身份信息(PII),从源头上杜绝了数据泄露的风险。这一特性使得该数据集可以无缝集成到Nemotron系列模型及其他开源大型语言模型(LLMs)中,赋能开发者针对新加坡特有的应用场景进行AI智能体的精细化调优与系统构建。
在全球范围内,英伟达已经率先推出了覆盖美国、日本、印度和巴西等地的合成人物数据集,而Nemotron-Personas-Singapore的加入,无疑进一步丰富了其开放合成人物数据的版图。这不仅展示了英伟达对全球各地AI生态发展的支持,也为各地构建符合自身特色的AI系统提供了宝贵资源。
那么,这个备受瞩目的数据集究竟包含了哪些内容呢?它庞大而精细的结构,为新加坡的AI开发提供了坚实的基础。
首先,该数据集共包含了888,000个新加坡人物画像。这并非简单的重复,而是通过148,000条记录,每条记录生成6个不同的人物画像,确保了数据的多样性和丰富性。这些海量的数据,总共包含了约1.18亿个词元(tokens),其中人物画像相关的词元就达到了约4800万个,为AI模型的深度学习提供了充足的“养料”。
每一条记录都拥有38个详细的字段,其中7个是人物画像的核心字段,而另外31个则是基于官方统计数据建立的上下文情境字段。这种设计确保了合成人物的真实性和与现实世界的关联度。在地理覆盖方面,该数据集实现了对新加坡全部55个规划区(planning areas)的完整覆盖,这意味着AI模型能够学习到新加坡不同区域的细微差异和特点,从而更好地服务于本地化应用。
在人物命名方面,数据集收录了14.8万个独特的姓名,其中包括8,992个独特的名字、4,182个独特的中间名以及4,894个独特的姓氏,这些都严格遵循了新加坡本地的姓名分布规律,避免了生硬或不自然的组合。此外,数据集中的职业类别也真实反映了新加坡的劳动力市场结构,涵盖了专业人士、体育爱好者、艺术创作者、旅行达人等多种类型的人物形象。这种多维度、多类型的人物设定,使得AI模型在理解和模拟真实用户行为时,能够更加准确和细致。
构建这样一个复杂且高度贴合实际的数据集,背后是先进的技术和严谨的方法论。Nemotron-Personas-Singapore的生成,主要得益于英伟达的企业级合成数据生成微服务——NeMo数据设计器(NeMo Data Designer)。这个强大的平台,是整个数据生成流程的核心枢纽。
在生成管道中,项目团队巧妙地运用了两种关键技术。其一,是基于Apache-2.0许可的概率图模型,它为数据的统计学接地提供了坚实的基础,确保了合成数据在统计分布上与真实世界的高度一致性。其二,则是GPT-OSS-120B大语言模型(同样基于Apache-2.0许可),它在叙事生成方面发挥了关键作用,赋予了合成人物生动且富有逻辑的背景故事和行为模式。这两种技术的结合,使得生成的数据既在宏观上符合统计规律,又在微观上充满了自然的细节。
未来,Nemotron-Personas-Singapore的增强版本,将可以直接在NeMo数据设计器中进行使用。这意味着开发者将能够根据自身需求,在合成数据管道中,灵活地生成、精炼和扩展新加坡特定的人物画像,进一步提升AI模型开发的效率和精准度。
为了确保数据集能够充分捕捉新加坡人口的社会人口学和地理多样性,项目团队在构建过程中融入了大量本地化的文化语境。他们深入挖掘了2024年新加坡人口普查中自我报告的公开人口统计数据,并结合了新加坡国家图书馆管理局(NLB Name Authorities)和房地产代理理事会(CEA Salesperson Information)在data.gov.sg上发布的英文姓名分布数据。这些权威且实时的信息,构成了数据集精细化和本土化的基石。
例如,在教育背景方面,数据集引入了比普查分组更细致的教育水平划分。这不仅反映了新加坡学术和职业教育的多元面貌,也考量了不同教育背景对个体语言表达和推理能力的影响。在职业设定上,数据集着重体现了新加坡以服务业为主导的劳动力结构,涵盖了各个关键行业。同时,团队在设计时也高度谨慎,避免在多元文化背景下强化任何敏感的社会经济刻板印象,力求呈现一个客观公正的职业图谱。
考虑到人生阶段对个人需求和行为模式的巨大影响,数据集还特别纳入了就业、退休和家庭构成等因素,以反映成年人(15岁以上)在不同人生阶段优先事项的变化。在地理层面,人物画像与规划区级别的分布紧密对齐,这种细致的划分能够捕捉到新加坡内部的区域差异,同时避免了对真实地址数据的依赖,进一步保障了隐私。
文化特质是新加坡社会多元性的重要体现。为此,数据集通过民族、宗教和语言偏好等属性,来代表新加坡多民族、多宗教的社会特征,以反映当地的文化规范。此外,数字熟悉度也成为一个重要的考量因素,它反映了不同年龄群体在数字素养和技术使用方面的差异,确保AI系统在与不同用户交互时,能够展现出适当的“智能”。
更深层次地,这项数据集的设计还与新加坡的AI治理框架保持了高度一致。该框架强调比例性、基于风险的控制以及循证监督,尤其是在受监管的行业。通过将这些政策考量融入数据生成,Nemotron-Personas-Singapore在支持AI创新的同时,也为未来AI应用的合规性和社会责任提供了坚实保障。
值得反复强调的是,Nemotron-Personas-Singapore数据集中的每一个人格都是完全合成的。这意味着:它不涉及任何真实个体的信息;不包含任何个人身份信息;也完全规避了重新识别个人身份的风险。通过将数据生成基于公开统计数据而非个人记录,Nemotron-Personas-Singapore极大地降低了AI开发和评估过程中的监管摩擦。这不仅有助于项目遵循新加坡的《个人数据保护法案》(PDPA),也与全球新兴的AI治理标准保持了高度一致性,为AI的负责任发展树立了典范。
那么,究竟哪些人群能够从Nemotron-Personas-Singapore数据集中受益呢?新媒网跨境了解到,这款数据集首先是为新加坡本地的模型构建者设计的,旨在助力他们开发出真正意义上的主权AI系统。然而,其价值并不仅限于此。全球范围内的开发者也可以利用这些数据,来提升其AI模型在新加坡多元文化背景下的表现和市场适应性,从而更好地服务于这个充满活力的市场。
展望未来,Nemotron-Personas-Singapore数据集的应用前景广阔,能够赋能多个关键行业。
在金融服务领域,基于人物画像的评估支持偏差测试、适用性检查以及针对脆弱场景的压力测试,而无需重复使用敏感的客户数据。这对于确保金融产品的公平性和安全性至关重要。
在医疗健康与医学AI领域,合成人物使得对临床助理、患者聊天机器人以及医疗翻译系统进行安全评估成为可能。这些评估可以覆盖不同患者人口统计学特征、识字水平和护理情境,而无需暴露真实的患者数据,极大地推动了医疗AI的创新和应用。
对于消费者安全而言,合成人物可以帮助测试面向公众的AI系统可能出现的“幻觉”(hallucinations)、语气失当(tone failures)以及针对特定群体的风险。这对于确保AI在公共服务和互动中的稳健性与可靠性具有深远意义。
此外,在AI模型性能基准测试方面,这些与模型无关的人物画像能够支持不同模型、团队和机构之间进行可复现的比较,为AI研究和开发提供了一个统一的评估标准。
随着人工智能日益融入公共服务、金融、医疗和基础设施等关键领域,一个核心问题已经从“AI是否具有主权”转变为“如何负责任地实现主权”。Nemotron-Personas-Singapore数据集在三个具体方面,为实现主权AI提供了强有力的支持。
首先是本地相关性。评估结果以新加坡的人口、人口统计学特征和使用场景为基础,这使得开发团队能够测试模型在其未来实际服务的环境中将如何表现,确保AI的本地化适配性。
其次是AI就绪的透明度。完全合成的、基于统计数据的人物画像,提供了可检查、可复现的评估输入,为审计、文档记录和监督审查提供了便利。这种透明度是构建信任、推动AI负责任发展的基石。
最后是共享基础设施。该数据集的开放发布,使得不同团队和机构之间能够进行一致的评估,为开发者、企业和监管机构创建了一个共同的参考点,从而促进了整个AI生态系统的协同创新。新媒网跨境认为,这种开放与共享的精神,将极大推动整个区域乃至全球AI技术的发展与应用。
我们鼓励广大开发者,立即开始探索并利用Nemotron-Personas-Singapore数据集。您可以通过以下Python代码,直接从Hugging Face平台加载数据集,开启您的AI创新之旅:
from datasets import load_dataset
dataset = load_dataset("nvidia/nemotron-personas-singapore")
如果您想了解更多关于英伟达开放数据产品的信息,或者对共同设计未来的数据集感兴趣,欢迎加入英伟达的Discord社区,与全球的AI开发者一同交流探讨。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-singapore-880k-ai-personas-sovereign-ai.html


粤公网安备 44011302004783号 











