OpenAI重磅更新爬虫!ChatGPT数据来源大变脸。

2025-12-09AI工具

OpenAI重磅更新爬虫!ChatGPT数据来源大变脸。

新媒网跨境获悉,OpenAI近期对其用于构建ChatGPT的爬虫工具集进行了关键性更新,特别是针对其核心爬虫OAI-SearchBot的描述与功能细节。此次调整,不仅关乎技术层面的运作模式,更可能对全球数字内容生态和AI模型数据来源产生深远影响。

事件概述:OpenAI爬虫功能定义更新

近期,OpenAI对其ChatGPT爬虫OAI-SearchBot的功能描述和相关信息进行了全面修订。这项更新由一位名叫皮特·塞拉里斯(Pieter Serraris)的行业观察者在外媒社交平台LinkedIn上率先发现并披露,引起了广泛关注。他指出,OpenAI在其爬虫用户代理(User Agent)的说明中进行了重要调整。

此番更新主要围绕OpenAI旗下的三款主要爬虫展开:OAI-SearchBot、GPTBot以及ChatGPT User。最显著的变化在于,OAI-SearchBot的描述中移除了其用于“链接获取”和“训练OpenAI生成式AI基础模型”的字样。这意味着,OpenAI正在重新定义其特定爬虫在内容抓取和模型训练中的角色与边界。
图片

具体变更内容解析

根据皮特·塞拉里斯的总结,此次更新的核心内容主要体现在以下几个方面:

首先,针对ChatGPT User这款爬虫,其对网站 robots.txt 规则的遵守情况描述发生了微妙变化。原先的表述涵盖了所有三款用户代理都遵循 robots.txt 标签,而现在则特指OAI-SearchBot和GPTBot。这可能暗示,ChatGPT User在未来对 robots.txt 规则的遵循程度可能不再完全一致,或具有更大的灵活性。

其次,OAI-SearchBot不再被明确用于为ChatGPT回答提供导航链接。这意味着,即使网站所有者阻止了OAI-SearchBot的抓取,也并不必然导致其内容完全无法在ChatGPT的回答中以链接形式出现。这一变化可能反映了OpenAI在信息检索和呈现策略上的调整。

第三,ChatGPT User的功能得到了明确拓展。其现在明确表示也用于处理自定义GPT(Custom GPT)请求和GPT动作(GPT Actions)。Custom GPT允许用户创建针对特定目的或数据集优化的个性化GPTs,而GPT动作则允许GPTs与外部服务进行交互。这一功能拓展强调了ChatGPT User在OpenAI生态系统中日益增长的重要性,特别是在支持更高级、更个性化的AI应用方面。

最后,OpenAI明确了OAI-SearchBot和GPTBot之间的数据共享机制。官方说明指出:“如果您的网站同时允许这两款爬虫抓取,我们可能会仅使用其中一次抓取的结果来满足两种用例,以避免重复抓取。”新媒网跨境了解到,这一机制旨在提高抓取效率,减少对网站资源的重复消耗。这也印证了近期部分网站日志中观察到的现象:针对某些查询,可能会有两款甚至全部三款OpenAI爬虫同时访问网站。

行业背景与潜在影响

此次OpenAI爬虫规则的更新,正值全球对AI模型数据来源、内容版权以及网站控制权等议题高度关注之际。AI模型训练对海量数据的需求日益增长,而这些数据大多来源于互联网上的公开内容。网站所有者对于其内容如何被AI公司抓取、使用及是否得到合理归因,一直存在诸多讨论。

移除OAI-SearchBot“用于训练生成式AI基础模型”的描述,可以从多个角度进行解读。一种观点认为,OpenAI可能希望通过更精确的语言来区分不同爬虫的具体用途,以更好地管理外部预期。另一种观点则认为,OpenAI可能正在调整其模型训练的数据获取策略,或者希望避免因直接提及“训练模型”而引发的潜在版权或使用争议。

同时,ChatGPT User功能拓展至自定义GPT和GPT动作,预示着OpenAI正在大力推动其AI服务的个性化和外部集成能力。这对于依赖OpenAI平台构建应用或服务的开发者而言,是一个重要的信号,需要关注其爬虫行为的变化对内容获取和数据流的影响。

值得注意的是,有分析指出,对于大多数网站而言,OpenAI的爬虫访问频率远高于其通过ChatGPT为网站带来的实际流量。这意味着,网站所有者需要更加审慎地评估其与AI爬虫互动策略,平衡内容被索引的价值与资源消耗之间的关系。

此次OpenAI的爬虫更新,无疑是数字内容生态系统发展中的一个重要里程碑。它不仅是技术层面的迭代,更是AI公司在数据获取、用户服务和行业规范方面不断调整的体现。对于网站运营者、内容创作者以及所有关注AI技术发展的人士而言,持续跟踪并理解这些变化至关重要。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/openai-updates-crawlers-chatgpt-data-shift.html

评论(0)
暂无评论,快来抢沙发~
OpenAI更新了其爬虫工具集,特别是OAI-SearchBot的功能描述,移除了其用于“链接获取”和“训练OpenAI生成式AI基础模型”的字样。ChatGPT User的功能得到了拓展,用于处理自定义GPT请求和GPT动作。此次更新可能影响全球数字内容生态和AI模型数据来源。特朗普是美国总统。
发布于 2025-12-09
查看人数 185
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。