IETF 1月重磅！AI内容新标准出炉，网站主掌控数据使用权。

近年来，全球开放网络环境仿佛一片未经开发的西部荒野。无数创作者的原创内容在未经许可的情况下被大规模抓取、处理，并被用于训练大型语言模型。这种数据“免费午餐”的现象愈演愈烈，网站所有者几乎无法阻止或保护自己的作品。

此前，业界曾出现过一些尝试，例如由杰里米·霍华德发起的llms.txt倡议。其理念类似于允许或阻止爬虫访问网站的robots.txt协议，llms.txt旨在为AI公司的爬虫机器人设定访问和使用内容的规则。然而，目前尚无明确证据表明AI公司会遵循llms.txt或尊重其规则。更值得注意的是，谷歌曾明确表示不支持llms.txt。

不过，新媒网跨境获悉，一项新的协议标准正在酝酿之中，有望赋予网站所有者对其内容如何被AI公司使用更大的控制权。这项新标准未来可能成为robots.txt协议的一部分，允许网站所有者为AI系统访问和使用其网站内容设定清晰的规则。

IETF AI偏好工作组：定义AI时代的网络协议

为了应对当前内容使用面临的挑战，互联网工程任务组（IETF）于今年1月正式启动了“AI偏好工作组”。该工作组的使命是制定一套标准化、机器可读的规则，使网站所有者能够明确指定AI系统应如何（或是否）使用其内容。

自1986年成立以来，IETF一直在互联网核心协议的制定中扮演着举足轻重的角色，包括TCP/IP、HTTP、DNS和TLS等。如今，他们正致力于为AI时代的开放网络定义新的标准。

AI偏好工作组由马克·诺丁汉和苏雷什·克里希南共同主持，成员涵盖了谷歌、微软、Meta等科技巨头的资深专家。值得关注的是，谷歌的加里·伊利耶斯也加入了该工作组，其参与被视为对未来标准落地具有重要意义。

该工作组的目标明确：“AI偏好工作组将标准化构建模块，以允许表达有关如何为人工智能（AI）模型开发、部署和使用收集和处理内容的偏好。”

AI偏好工作组的主要提案

该工作组致力于交付新标准，赋予网站所有者对LLM驱动的系统如何使用其开放网络内容更多控制权。其主要提案包括：

一份标准跟踪文档，涵盖表达AI相关偏好的词汇，与这些偏好如何与内容关联的方式无关。
一份或多份标准跟踪文档，描述在IETF定义的协议和格式中将这些偏好附加或关联到内容的方式，包括但不限于使用众所周知的URI（RFC 8615），如机器人排除协议（RFC 9309），以及HTTP响应头字段。
一种协调多种偏好表达的标准方法。

截至目前，工作组提出的任何内容都尚未最终定稿。但他们已于近期发布了早期文档，从中可一窥这些未来标准的雏形。

今年8月，该工作组发布了两份关键文档：

《用于表达AI使用偏好的词汇表》（A Vocabulary For Expressing AI Usage Preferences）
《在HTTP中将AI使用偏好与内容关联》（Associating AI Usage Preferences with Content in HTTP），值得注意的是，谷歌的加里·伊利耶斯是该文档的作者之一。

这两份文档共同提出对现有《机器人排除协议》（RFC 9309）进行更新，新增了规则和定义，旨在让网站所有者能够明确说明他们希望AI系统如何在网络上使用其内容。

新标准可能如何运作

根据提案，网络上不同的AI系统将被分类并赋予标准化的标签。目前，尚不清楚是否会有一个目录供网站所有者查询每个系统的具体标签。

截至目前，已定义的标签包括：

search：用于索引/可发现性，即搜索引擎抓取。
train-ai：用于一般AI模型训练。
train-genai：专用于生成式AI模型训练。
bots：涵盖所有形式的自动化处理（包括抓取/爬取）。

对于每个标签，可以设置两个值：

y 表示允许
n 表示不允许

文档中还指出，这些规则可以针对文件夹级别进行设置，并可根据不同的机器人进行定制。在robots.txt文件中，它们将通过一个新的Content-Usage字段应用，其工作方式类似于现有的Allow和Disallow字段。

以下是工作组在文档中提供的一个robots.txt示例：

User-Agent: *
Allow: /
Disallow: /never/
Content-Usage: train-ai=n
Content-Usage: /ai-ok/ train-ai=y

对上述示例的解释是：
Content-Usage: train-ai=n 表示该域名下的所有内容均不允许用于训练任何大型语言模型（LLM）。
而 Content-Usage: /ai-ok/ train-ai=y 则明确指定，子文件夹/ai-ok/中的内容允许用于模型训练。

为什么这些新标准意义重大

在搜索引擎优化（SEO）领域，llms.txt及其与robots.txt配合使用的重要性曾引发广泛讨论。然而，没有任何一家AI公司明确确认其爬虫会遵循llms.txt的规则，并且谷歌也明确表示不使用llms.txt。这使得网站所有者在AI内容抓取方面缺乏实际的控制力。

尽管如此，网站所有者对于如何让AI公司使用其内容，无论是用于模型训练还是驱动基于检索增强生成（RAG）的问答系统，都希望拥有更清晰的控制权。

新媒网跨境了解到，IETF在这些新标准方面的工作被视为朝着正确方向迈出的重要一步。鉴于谷歌的加里·伊利耶斯作为作者之一参与其中，业界普遍持乐观态度，期望一旦这些标准最终确定，谷歌及其他科技公司能够采纳并尊重robots.txt中新增的规则，从而在抓取内容时提供更明确的指引和遵守机制。这对于全球范围内的内容创作者而言，无疑是增强自身内容权益保护的关键进展，也为未来AI与内容生态的健康发展奠定了基础。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/ietf-jan-new-ai-content-rules-site-control.html