谷歌发话:AI爬虫用Markdown是蠢主意!省95%令牌反吃亏?

近期,全球跨境行业正密切关注一场关于AI爬虫内容优化策略的讨论。围绕是否应为大型语言模型(LLM)爬虫提供Markdown格式文件,引发了行业内广泛关注和争议。谷歌搜索倡导者约翰·穆勒(John Mueller)对此明确表达了其不认同的立场,甚至称这种做法为“愚蠢的想法”。
新媒网跨境获悉,这场讨论的起源可追溯至一些开发者在优化AI爬虫抓取效率方面的尝试。这些开发者提出,通过向LLM爬虫提供更为精简的Markdown格式内容,可以有效降低AI模型的“令牌(token)”使用量,进而提高其内容摄取能力。
事件缘起与各方观点
此次争议的导火索,是海外一位开发者在Reddit论坛的r/TechSEO板块分享的一项实验。该开发者计划使用Next.js中间件来识别诸如GPTBot和ClaudeBot等AI用户代理。当这些AI爬虫访问网站页面时,中间件会拦截请求,并提供原始的Markdown文件,而非完整的React/HTML页面内容。据该开发者声称,初步测试数据显示,此举可使每页的令牌使用量减少95%,从而提高网站对检索增强生成(RAG)型机器人(Retrieval-Augmented Generation bots)的内容摄取能力。
这一提议很快引起了谷歌搜索倡导者约翰·穆勒的关注。穆勒在Reddit上对开发者的方案提出了一系列质疑。他疑问道:“你确定这些LLM爬虫能将网站上的Markdown识别为除文本文件之外的其他内容吗?它们能否解析并追踪其中的链接?这会对你网站的内部链接、页眉、页脚、侧边栏、导航等造成什么影响?手动提供一个Markdown文件与在爬虫期望HTML页面时却向其提供一个文本文件,这两者之间似乎存在显著差异。”
穆勒在另一个社交媒体平台Bluesky上的表态则更为直接。他回应了技术搜索引擎优化顾问乔诺·奥尔德森(Jono Alderson)的观点——奥尔德森认为将页面扁平化为Markdown会剥离其语义和结构。穆勒在Bluesky上写道:“将页面转换为Markdown真是个愚蠢的想法。你知道LLM能够读取图片吗?为什么不把你的整个网站变成一张图片呢?”
奥尔德森也认为,将页面折叠成Markdown会移除重要的上下文和结构,他将这种获取Markdown内容的方式视为一种便利策略,而非长期的解决方案。Reddit讨论串中的其他评论者也表达了类似的担忧。有评论指出,这种做法可能反而限制了爬虫的抓取效率,而非提升。他们认为,目前没有证据表明LLMs会偏爱解析资源消耗较少的文件。尽管如此,最初的发帖者仍然为其理论辩护,声称LLMs在解析Markdown方面比HTML表现更佳,理由是它们在代码仓库上接受了大量训练,但这一说法尚未经过验证。
深层考量与行业背景
约翰·穆勒的这一立场并非首次表达。在此前与另一位行业专家莉莉·雷(Lily Ray)的交流中,穆勒被问及是否应为LLMs创建单独的Markdown或JSON页面。他当时的回复与现在保持一致,即应专注于提供干净的HTML和结构化数据,而非为机器人构建专门的内容副本。
这并非仅仅是个人观点,其背后有一定的数据支撑。此前,海外知名的搜索引擎优化工具SE Ranking对30万个域名进行了分析,结果显示,拥有llms.txt文件与域名在LLM答案中被引用的频率之间没有关联。穆勒也曾将llms.txt文件比作关键词元标签(keywords meta tag),这种格式的主要平台并未将其记录为用于排名或引用的元素。
从行业背景来看,大型语言模型在内容理解和生成方面的飞速发展,使得网站开发者不断探索如何更有效地将网站内容提供给这些智能系统。降低“令牌”使用量确实是AI模型在处理大量信息时需要考虑的效率问题。令牌是LLM处理文本的基本单位,令牌使用量直接关系到处理成本和速度。因此,开发者希望通过提供精简格式来优化这一过程,本意是好的。
然而,穆勒的担忧揭示了一个更深层次的问题:搜索引擎(包括未来可能整合AI的搜索引擎)对内容理解的复杂性。一个完整的HTML页面不仅包含纯文本信息,还蕴含着丰富的结构化信息、视觉元素布局、交互逻辑以及语义关联。例如,页面的标题、段落、列表、图片、表格、内部链接、外部链接等,共同构建了一个页面的完整语境和信息层级。这些元素对于传统搜索引擎理解内容、评估页面质量至关重要,对于旨在“理解”世界并提供准确答案的LLM而言,其重要性可能不减反增。
单纯的Markdown文件虽然在文本呈现上更为简洁,但可能会丢失很多在HTML中通过标签、属性和样式所表达的结构性、语义性信息。例如,一个段落是文章主体,还是引用;一个链接是内部导航,还是参考文献;一张图片是纯粹的装饰,还是承载了关键信息——这些在HTML中一目了然的层级和功能,在原始Markdown中可能变得模糊。LLM爬虫如果无法有效识别这些细微之处,其对页面内容的理解可能反而变得片面,最终影响其生成答案的质量和准确性。
前瞻与应对建议
截至目前,尚未有任何主流AI平台发布明确规范,要求网站提供Markdown版本的网页内容。在缺乏官方指导的情况下,业界普遍认为,最佳实践依然保持不变:
首先,保持HTML的整洁性至关重要。这意味着网站代码应结构清晰、语义明确,避免冗余和错误。干净的HTML不仅有助于传统搜索引擎的抓取和索引,也能为未来更复杂的AI爬虫提供高质量的原始数据。
其次,减少不必要的JavaScript对内容解析的阻碍。某些复杂的JavaScript框架和动态加载方式,可能会导致爬虫难以获取页面的完整内容。优化JavaScript的使用,确保核心内容能够被爬虫有效抓取,是提高网站可见度的关键。
最后,善用结构化数据。在平台已有明确文档支持的场景下,积极采用Schema.org等标准化的结构化数据标记,能够帮助搜索引擎和AI模型更准确地理解页面内容的含义和实体关系。例如,产品信息、文章类型、评价数据等,通过结构化数据进行标注,可以极大地提升信息的可读性和可被利用性。新媒网跨境认为,这对于跨境电商而言尤为重要,能够提升产品在全球市场的曝光度。
综上所述,尽管开发者们出于优化效率的考量,积极探索为LLM爬虫提供Markdown内容的可能性,但谷歌搜索倡导者约翰·穆勒的明确表态,以及行业内相关数据的印证,都指向一个共识:在AI平台没有明确指引之前,坚持高质量的HTML、减少技术障碍并利用结构化数据,仍是确保网站内容能被有效发现和理解的最稳妥途径。这不仅是对传统搜索引擎的负责,也是对未来AI驱动内容消费模式的前瞻性布局。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/google-ai-markdown-stupid-95-token-gain-doubt.html


粤公网安备 44011302004783号 













