IETF 1月重磅!AI内容新标准出炉,网站主掌控数据使用权。

近年来,全球开放网络环境仿佛一片未经开发的西部荒野。无数创作者的原创内容在未经许可的情况下被大规模抓取、处理,并被用于训练大型语言模型。这种数据“免费午餐”的现象愈演愈烈,网站所有者几乎无法阻止或保护自己的作品。
此前,业界曾出现过一些尝试,例如由杰里米·霍华德发起的llms.txt倡议。其理念类似于允许或阻止爬虫访问网站的robots.txt协议,llms.txt旨在为AI公司的爬虫机器人设定访问和使用内容的规则。然而,目前尚无明确证据表明AI公司会遵循llms.txt或尊重其规则。更值得注意的是,谷歌曾明确表示不支持llms.txt。
不过,新媒网跨境获悉,一项新的协议标准正在酝酿之中,有望赋予网站所有者对其内容如何被AI公司使用更大的控制权。这项新标准未来可能成为robots.txt协议的一部分,允许网站所有者为AI系统访问和使用其网站内容设定清晰的规则。
IETF AI偏好工作组:定义AI时代的网络协议
为了应对当前内容使用面临的挑战,互联网工程任务组(IETF)于今年1月正式启动了“AI偏好工作组”。该工作组的使命是制定一套标准化、机器可读的规则,使网站所有者能够明确指定AI系统应如何(或是否)使用其内容。
自1986年成立以来,IETF一直在互联网核心协议的制定中扮演着举足轻重的角色,包括TCP/IP、HTTP、DNS和TLS等。如今,他们正致力于为AI时代的开放网络定义新的标准。
AI偏好工作组由马克·诺丁汉和苏雷什·克里希南共同主持,成员涵盖了谷歌、微软、Meta等科技巨头的资深专家。值得关注的是,谷歌的加里·伊利耶斯也加入了该工作组,其参与被视为对未来标准落地具有重要意义。
该工作组的目标明确:“AI偏好工作组将标准化构建模块,以允许表达有关如何为人工智能(AI)模型开发、部署和使用收集和处理内容的偏好。”
AI偏好工作组的主要提案
该工作组致力于交付新标准,赋予网站所有者对LLM驱动的系统如何使用其开放网络内容更多控制权。其主要提案包括:
- 一份标准跟踪文档,涵盖表达AI相关偏好的词汇,与这些偏好如何与内容关联的方式无关。
- 一份或多份标准跟踪文档,描述在IETF定义的协议和格式中将这些偏好附加或关联到内容的方式,包括但不限于使用众所周知的URI(RFC 8615),如机器人排除协议(RFC 9309),以及HTTP响应头字段。
- 一种协调多种偏好表达的标准方法。
截至目前,工作组提出的任何内容都尚未最终定稿。但他们已于近期发布了早期文档,从中可一窥这些未来标准的雏形。
今年8月,该工作组发布了两份关键文档:
- 《用于表达AI使用偏好的词汇表》(A Vocabulary For Expressing AI Usage Preferences)
- 《在HTTP中将AI使用偏好与内容关联》(Associating AI Usage Preferences with Content in HTTP),值得注意的是,谷歌的加里·伊利耶斯是该文档的作者之一。
这两份文档共同提出对现有《机器人排除协议》(RFC 9309)进行更新,新增了规则和定义,旨在让网站所有者能够明确说明他们希望AI系统如何在网络上使用其内容。
新标准可能如何运作
根据提案,网络上不同的AI系统将被分类并赋予标准化的标签。目前,尚不清楚是否会有一个目录供网站所有者查询每个系统的具体标签。
截至目前,已定义的标签包括:
search:用于索引/可发现性,即搜索引擎抓取。train-ai:用于一般AI模型训练。train-genai:专用于生成式AI模型训练。bots:涵盖所有形式的自动化处理(包括抓取/爬取)。
对于每个标签,可以设置两个值:
y表示允许n表示不允许
文档中还指出,这些规则可以针对文件夹级别进行设置,并可根据不同的机器人进行定制。在robots.txt文件中,它们将通过一个新的Content-Usage字段应用,其工作方式类似于现有的Allow和Disallow字段。
以下是工作组在文档中提供的一个robots.txt示例:
User-Agent: *
Allow: /
Disallow: /never/
Content-Usage: train-ai=n
Content-Usage: /ai-ok/ train-ai=y
对上述示例的解释是:Content-Usage: train-ai=n 表示该域名下的所有内容均不允许用于训练任何大型语言模型(LLM)。
而 Content-Usage: /ai-ok/ train-ai=y 则明确指定,子文件夹/ai-ok/中的内容允许用于模型训练。
为什么这些新标准意义重大
在搜索引擎优化(SEO)领域,llms.txt及其与robots.txt配合使用的重要性曾引发广泛讨论。然而,没有任何一家AI公司明确确认其爬虫会遵循llms.txt的规则,并且谷歌也明确表示不使用llms.txt。这使得网站所有者在AI内容抓取方面缺乏实际的控制力。
尽管如此,网站所有者对于如何让AI公司使用其内容,无论是用于模型训练还是驱动基于检索增强生成(RAG)的问答系统,都希望拥有更清晰的控制权。
新媒网跨境了解到,IETF在这些新标准方面的工作被视为朝着正确方向迈出的重要一步。鉴于谷歌的加里·伊利耶斯作为作者之一参与其中,业界普遍持乐观态度,期望一旦这些标准最终确定,谷歌及其他科技公司能够采纳并尊重robots.txt中新增的规则,从而在抓取内容时提供更明确的指引和遵守机制。这对于全球范围内的内容创作者而言,无疑是增强自身内容权益保护的关键进展,也为未来AI与内容生态的健康发展奠定了基础。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ietf-jan-new-ai-content-rules-site-control.html


粤公网安备 44011302004783号 













