谷歌AI+SEO：2025年9月模型实测，还需专业团队驾驭。

近期，全球范围内AI大模型技术的迭代速度引人瞩目。然而，新媒网跨境了解到，尽管2025年下半年陆续发布了一系列AI新模型，它们在执行现实世界的SEO任务方面并未展现出显著的提升。尤其是在搜索引擎优化（SEO）领域的专业任务处理上，AI的进展似乎遭遇了瓶颈。
Llm Leaderboard Sept 10 2025 Scaled

最新的AI大模型基准测试结果显示，Anthropic公司开发的Claude Opus 4.1模型在执行技术性SEO、本地化、SEO策略制定以及页面优化等多种SEO相关任务中，仍然保持领先地位。与此同时，OpenAI公司的ChatGPT-5模型尽管在最初发布时遭遇了一些负面评价，但在本次基准测试中表现有所改善，实现了回升。微软的Copilot，作为GPT-5的驱动应用，其性能也达到了OpenAI模型的水平，这相较于其此前表现不佳的状态，无疑是一次重大升级。此外，谷歌的Gemini 2.5 Pro模型也展现出强劲的实力，成为市场上的第三个有力竞争者。考虑到Gemini与谷歌生态系统（如Gmail、Sheets、Slides、Docs等）的深度整合，以及其Opal、NotebookLM等聚焦AI的功能模块，其对SEO专业人士和营销人员的影响潜力值得关注。

为了系统评估大型语言模型（LLMs）在执行真实SEO任务时的效率与可靠性，Previsible公司于2025年4月启动了“AI SEO基准测试”项目。这项研究旨在回答两个核心问题：第一，AI能否以专家级水平可靠地执行SEO任务？第二，随着这些模型的不断改进，其应用价值是否会改变营销人员对SEO和地理定位（GEO）任务的资源配置方式？

为解答上述问题，Previsible公司组织了一个由拥有十年以上专业经验的SEO资深人士组成的团队，共同设计了一套涵盖多学科SEO任务的综合性问题集，其中包括内容策略、页面优化、外链建设以及技术性SEO等方面。随后，研究团队将市场主流的LLMs置于这套问题集下进行测试，并根据它们的表现给出百分制评分。这种基准测试方法与软件开发、数学推理及逻辑任务等领域中评估AI性能的方式相类似。

在2025年4月首次发布的基准测试报告中，研究团队得出了一些初步结论。报告显示，LLMs在关键词策略制定和元数据创建等内容导向型SEO任务上表现良好。然而，在技术性SEO领域，由于该领域对精确性和可预测性思维有较高要求，LLMs的应对能力则显得较为吃力。

自2025年4月的首次评估以来，AI领域的格局发生了显著变化。除Meta公司的Llama系列模型外，几乎所有主要的AI供应商都发布了各自的新一代模型。面对这股更新浪潮，Previsible公司对基准测试进行了再次运行，并根据最新结果刷新了排行榜。

那么，面对最新发布的一系列模型，它们的表现如何？这又将如何影响SEO团队在时间、工具和人才方面的分配策略？新媒网跨境了解到，尽管基准测试排行榜有所变动，但AI在SEO任务中的整体表现尚未突破此前设定的能力上限。对于非专业的SEO从业者而言，将SEO任务完全委托给LLMs执行，可能需要保持高度谨慎。

在本次报告的撰写过程中，研究团队收集了SEO社区关于AI失控的一些案例。这些案例包括：有SEO专业人士发现AI工具报告了不存在的404错误URL，并声称这些URL拥有外链；也有人使用ChatGPT进行大规模网站的排名下降分析，虽然初步结果令人印象深刻，但在深入验证后发现其底层分析存在严重偏差，最终导致耗时返工；还有LLMs在处理HTML编辑脚本时，因无法理解字数限制，导致标题标签中出现了长篇文字，并产生了超出预期的成本。这些虽然是零星的经验分享，但均来自专业的SEO从业者。这表明，对于关注搜索排名的企业高管而言，仍需专业的SEO人才来有效利用LLMs。

有观点认为，对于那些并非深度沉浸在“通用人工智能（AGI）”热潮中的人来说，2025年AI技术的发展速度显得较为平稳。虽然变革仍在发生，但其主要影响集中在市场炒作层面，例如ChatGPT-5在首次亮相后表现平平。

OpenAI公司首席科学家伊利亚·苏茨克维尔（Ilya Sutskever）在2024年曾向外媒透露，AI模型训练中的“预训练阶段”（即利用大量未标记数据理解语言模式和结构的阶段）已经达到平台期，这与当前观察到的情况不谋而合。AI技术将持续发展，但本次基准测试更侧重于评估其当前的实用性。如果这些工具无法在现有工作流程中提供价值或效率，那么它们的意义何在？

在此背景下，谷歌公司在AI应用领域取得了进展。在2024年，曾有人认为谷歌早期的Gemini模型表现平平，甚至难以使用。然而，随着Gemini 2.5 Pro的发布，这一看法已发生彻底转变。Gemini 2.5不仅在本次基准测试中表现出色，更重要的是，它与谷歌的生态系统进行了深度整合，这构成了其真正的竞争优势。

现在，用户可以直接利用Gemini撰写电子邮件，模型能够自动理解Google云端硬盘中创建的文档上下文，引用日历中的会议信息，或者从Google Docs和Sheets中提取洞察，所有这些操作都在一个统一的界面内完成。这种无缝的实用性是目前其他LLMs难以大规模提供的。当许多LLMs还在努力构建可持续的竞争壁垒时，谷歌凭借其无处不在的数据集成，已经筑起了一道坚固的护城河。这种跨谷歌产品检索并处理相关信息的能力，是一种难以复制的战略优势。尽管Gemini目前尚未完美，但如果其产品改进速度得以保持，谷歌可能在应用型AI领域悄然成为主导者。

截至2025年9月，Previsible公司构建的AI SEO基准测试仍是一个动态工具，将随着新模型的发布和功能演进而持续更新。基于当前数据，该基准测试对最初提出的两个问题给出了以下结论：

AI能否以专家级水平可靠地执行SEO任务？ 答案是否定的。尽管大型语言模型取得了重大进展，但大多数模型仍缺乏专家级的执行能力，尤其是在需要精细策略、技术精确性或系统性思维的领域。
模型的改进是否会改变营销人员对SEO和地理定位职能的资源配置方式？ 目前看来，不会有实质性改变。目前观察到的进展主要体现在某些任务的速度提升和支持方面，但不足以全面调整团队结构或投资策略。AI的效用体现在提高效率，而非实现大规模自动化。

简而言之，目前不应指望ChatGPT或Gemini能够取代SEO团队。相反，当AI工具被明智地利用时，它们能够有效增强SEO团队的能力。尽管AI在处理复杂任务时仍有不足，但这一差距正在逐步缩小。持续关注该基准测试的发展至关重要。更重要的是，在竞争对手之前开始利用这些工具，因为早期采纳不仅能带来生产力提升，更是一种战略优势。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/google-ai-seo-2025-benchmark-still-needs-experts.html