AI大模型巨头付费25年维基百科核心知识库!

微软、Meta与亚马逊等科技巨头,缘何选择付费订阅维基百科“企业级”访问权限?
在全球跨境行业资深编辑与洞察分析师的视角中,这并非一起孤立的商业合作,它深刻揭示了人工智能时代下,科技巨头对高质量、权威数据源的渴求,以及开放知识平台在其中所扮演的核心角色。新媒网跨境获悉,维基媒体基金会于近日宣布,包括Ecosia、微软、Mistral AI、Perplexity、Pleias和ProRata在内的多家科技公司,已签署协议,向基金会支付费用,以获取维基百科内容的高级访问权限。这一消息是在维基媒体基金会纪念其成立25周年之际对外公布的。
在此之前,亚马逊、谷歌和Meta等科技巨头,作为维基媒体基金会较早期的合作成员,已通过其商业API接口,以“高容量和高速度”的方式,持续获取维基媒体旗下项目的各类内容。这些商业合作产生的收入,旨在支持维基媒体基金会的非营利使命及其长期的可持续发展。然而,更深层次的驱动力则在于当下蓬勃发展的人工智能浪潮。
AI大模型训练的“核心基石”:维基百科的不可替代性
维基媒体基金会反复强调,人工智能公司对维基百科内容的依赖程度极高,因此它们对维基百科的资金支持抱有既得利益。维基百科被广泛认为是大型语言模型(LLM)训练的核心数据集之一,在全球范围内为众多聊天机器人、搜索引擎和语音助手等AI产品提供基础性的知识支撑。
为何维基百科能在众多数据源中脱颖而出,成为科技巨头眼中的“香饽饽”?这主要源于其独特的优势:
首先,内容的广泛性与深度。维基百科涵盖了从科学、历史到文化、艺术等几乎所有人类知识领域,其词条不仅数量庞大,而且每个词条通常都包含丰富的细节和交叉引用,构成了庞大且相互关联的知识网络。这种全面性和深度,是训练AI模型理解复杂世界、生成高质量内容的基础。
其次,结构化与半结构化数据的优势。维基百科的词条以相对规范的格式组织,包含标题、正文、 infobox(信息框)、列表、分类和内部链接等多种结构元素。这使得机器在抓取和处理数据时,能更有效地识别和提取信息,构建知识图谱,这对于提升AI模型的逻辑推理和信息整合能力至关重要。相比于杂乱无章的普通网页数据,维基百科的数据质量更高,更易于模型吸收。
再者,持续更新与人工维护的价值。维基百科拥有一个全球性的、由约25万名志愿编辑组成的活跃社区,他们自2001年平台上线以来,持续为知识的构建、更新和修正付出努力。这意味着维基百科的内容能够保持较高的时效性,并经过多方审阅和修正,有效降低了错误和偏见的风险。在AI生成内容真假难辨的当下,这种由人类驱动和校验的知识库,成为抵御信息泛滥、确保AI产出质量的重要屏障。
商业合作:维基媒体基金会可持续发展的必由之路
作为一家非营利组织,维基媒体基金会的核心使命是促进开放知识的传播和共享。然而,要支撑维基百科这样体量庞大、访问量巨大的全球性网站,维护其技术基础设施、支持编辑社区运作、以及应对日益增长的数据存储和传输需求,都需要巨额的资金投入。
通过向科技公司提供商业API接口,并收取相应的费用,维基媒体基金会得以开辟新的收入来源。这种模式在保障开放知识自由访问的前提下,为基金会的运营提供了稳定的资金支持。它不仅能够覆盖服务器、网络带宽、软件开发、安全防护等关键成本,还能支持对编辑工具的改进和全球推广活动,从而更好地服务于其非营利使命。这是一种在当前数字经济环境中,平衡公益性与可持续性的有效探索。
“人类知识”:AI时代不可或缺的基石
维基媒体基金会首席产品/技术官Selena Deckelmann女士,在相关声明中特别强调了维基百科在人工智能时代“由人类驱动的知识”的重要性。她指出:“维基百科表明,知识是人类的结晶,知识需要人类的参与和维护。”这句话深刻揭示了在AI技术飞速发展的今天,人类智慧和劳动在知识构建中的独特且不可替代的地位。
这种“人类驱动的知识”体现在维基百科编辑们对内容中立性、准确性和完整性的不懈追求。他们通过严谨的编辑规范、相互监督和引用审查,确保了维基百科内容的质量和可信度。在AI模型容易受到训练数据偏差影响,甚至产生“幻觉”的背景下,一个经过人工精心策划和验证的知识库,对于训练出更负责任、更准确、更可信赖的AI至关重要。
Perplexity公司为了表达对维基百科编辑们贡献的感谢,在维基媒体成立25周年的纪念帖中宣布,将向维基百科的编辑们赠送2500个企业版(Enterprise)席位。这一举动不仅是对个人贡献者的认可,也反映出行业对维护高质量原创知识内容重要性的共识。
全球基础设施:支撑自由知识的“幕后英雄”
支撑维基百科全球数亿用户访问的,是其背后一套强大的分布式技术基础设施。新媒网跨境了解到,维基媒体基金会目前在全球范围内拥有七个运行中的数据中心。尽管这些数据中心中没有一个能够追溯到2001年维基百科成立之初(最初的数据中心已于2004年关闭),但它们构成了维基百科全球服务稳定运行的基石。
这些分布式数据中心的建设和维护,对于提升全球用户的访问速度、保障服务稳定性以及增强数据安全性至关重要。例如,最新在巴西圣保罗设立的数据中心,就已将该国用户的页面加载时间缩短了三分之一秒,显著提升了当地用户的访问体验。通过在全球各地部署数据中心,维基媒体基金会能够更好地应对不同地区的流量峰值,降低延迟,并增强抵御潜在网络攻击或故障的能力,确保全球用户都能便捷地获取知识。
展望与思考:开放知识与商业AI的未来交织
微软、Meta和亚马逊等科技巨头对维基百科的付费订阅,标志着开放知识平台与商业人工智能发展之间日益紧密的共生关系。这不仅为维基媒体基金会的非营利使命提供了稳定的资金支持,也间接促进了开放知识在全球范围内的传播和维护。
这种模式的出现,无疑将对未来的知识创作、共享模式以及AI伦理带来深远影响。它促使我们思考,在商业利益与公共利益之间,如何寻求平衡点,确保维基百科的核心价值——自由和开放——不被削弱。同时,随着AI对高质量数据需求的不断增长,未来或将有更多开放知识平台探索与商业伙伴的合作模式,共同构建一个更加智能且负责任的数字未来。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-llm-giants-pay-wikipedia-25-yr-core-kb.html


粤公网安备 44011302004783号 











