维基百科月览近150亿!AI巨头抢数据,助大模型升级。

在当前全球人工智能(AI)技术飞速发展的背景下,高质量的数据已成为驱动AI项目成功的核心要素。随着内容出版商对自身作品授权AI提供商的潜在商业价值认知日益提高,一场围绕数据访问权的竞争正日趋白热化,各方均致力于确保其AI模型拥有更丰富、更精准的信息来源。
新媒网跨境获悉,全球知名非营利组织维基媒体基金会(Wikimedia Foundation),即维基百科的运营方,近期宣布与包括美国亚马逊公司、美国Meta公司、美国微软公司、法国Mistral AI公司以及美国Perplexity公司在内的多家领先AI企业达成新的数据访问协议。这些协议旨在允许相关AI项目更直接地获取维基百科的信息,以增强其AI系统的能力和准确性。
维基百科:AI时代知识的基石
根据维基媒体基金会的声明,在AI时代,维基百科所拥有的人工创建和审核的知识库价值前所未有。维基百科目前位列全球访问量最高的十大网站之一,并且是其中唯一由非营利组织运营的平台。每月,全球用户浏览超过6500万篇以300多种语言撰写的文章,总浏览量接近150亿次。这些丰富的知识内容为生成式AI聊天机器人、搜索引擎、语音助手等多种AI应用提供了强大的数据支持。声明强调,维基百科至今仍是训练大型语言模型(Large Language Models, LLMs)的最高质量数据集之一。
这些数据访问协议的达成,得益于维基媒体基金会提供的企业级API(Wikimedia Enterprise APIs)。该API服务允许商业实体与维基百科数据进行商业合作,为维基媒体这一非营利知识库提供了额外的收入来源。通过此次与多家AI巨头的合作,维基媒体将获得更多资金支持,而这些AI平台也能借此巩固其数据输入,以维持并优化其AI工具的性能。
AI行业的数据争夺战愈演愈烈
对信息来源的需求正日益成为AI行业的核心考量。全球各大AI巨头纷纷与主要出版商签署数据访问协议,以确保其模型拥有充足的、合规的训练数据。
例如,美国OpenAI公司已与多家外媒如美国新闻集团(News Corp)和康泰纳仕(Conde Naste)建立了合作关系。此外,该公司近期还与美国迪士尼公司签署了一项内容许可合作协议,用于图像生成方面。美国Meta公司也与包括美国CNN、美国福克斯新闻(Fox News)和《人物》(People)杂志等多家知名外媒达成了协议。而xAI公司则依赖于社交平台X的实时数据来驱动其AI响应。
对优质信息源的渴求,甚至引发了市场对美国OpenAI公司可能寻求收购美国社交媒体Pinterest的猜测。这进一步凸显了在缺乏自有数据源的情况下,AI项目独立发展和提供有竞争力的AI产品将面临日益严峻的挑战。
近期,美国社交媒体Reddit公司对多家AI项目提起数据抓取诉讼,试图保护其平台数据资源不被未经许可地用于AI训练,这一事件也再次强调了数据版权和数据源保护的重要性。
高质量数据对AI发展的关键作用
能够获取到经过信任、审查和验证的信息,对于确保AI回答的准确性至关重要。这一趋势很可能导致许多小型AI玩家因无法承担高昂的数据授权费用而被市场淘汰,而大型平台则通过赢得更多内容的独家授权,进一步巩固其市场主导地位。
新媒网跨境了解到,数据来源的合法性、权威性和实时性,正成为AI技术竞争的核心要素之一。缺乏高质量、经过验证的数据,AI模型可能产生所谓的“幻觉”(hallucinations),即生成错误或捏造的信息,这将严重影响其可靠性和实用性。因此,AI公司投入巨资获取维基百科这类公认的高质量知识库的访问权,正是为了从源头上提升其模型的信息质量和输出的可信度。
原创内容价值的再认识
此次维基媒体基金会与众多AI公司的合作,从根本上凸显了新闻业以及能够提供经过验证数据的平台所具备的持续价值。这也可能意味着,原创的、经过深入研究的内容,在AI时代并不会被AI生成工具所取代,反而其价值将得到进一步提升。因为AI工具的运行和迭代,始终离不开高质量的人类输入作为基础。
新媒网跨境认为,此趋势有助于确保高质量原创内容在AI浪潮中继续发挥其不可替代的作用。当AI系统本身需要依赖人类的创造和智慧来学习和进步时,那些能够持续产生有价值、有深度、有准确性的原创内容的机构和个人,其重要性将得到前所未有的认可和回报。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/wikimedia-15b-view-ai-data-grab-llm-up.html


粤公网安备 44011302004783号 











