AI推荐太随机!近3000次查询,品牌列表重复率不足1%

一项最新研究揭示,人工智能(AI)工具在生成品牌推荐列表时,即使面对几乎相同的查询,其结果也往往大相径庭。这项由美国市场研究机构SparkToro发布、并由新媒网跨境获悉的报告,对当前AI推荐系统的稳定性和可靠性提出了新的思考。
AI推荐系统的核心发现:列表的高度不确定性
根据SparkToro的报告,AI模型在重复回答相同查询时,其品牌推荐列表的重复性极低。具体数据显示,无论是ChatGPT还是谷歌搜索中的AI概览(AI Overviews/AI Mode),在重复运行同一提示词的情况下,返回完全相同品牌列表的概率不足百分之一。这意味着,用户每次向AI寻求推荐时,都可能得到一份全新的、之前从未出现过的列表。
这项研究由SparkToro联合创始人兰德·费什金(Rand Fishkin)与AI追踪初创公司Gumshoe.ai的帕特里克·奥唐纳(Patrick O’Donnell)共同主导。研究团队在去年11月至12月期间,通过数百名志愿者,对ChatGPT、Claude以及谷歌搜索AI概览(当概览未出现时使用AI模式)共执行了2,961次提示词查询。
研究方法与结果细节
研究人员设计了12个涵盖不同类别的提示词,旨在获取品牌推荐,例如厨师刀具、耳机、癌症治疗医院、数字营销顾问以及科幻小说等。每个提示词在每个AI平台上均运行了60至100次。
实验结果清晰地表明,几乎所有的AI响应在三个维度上都呈现出独特性:一是推荐的品牌列表本身,二是推荐的品牌顺序,三是返回的项目数量。费什金先生总结了这一核心发现:“如果你向一个AI工具询问品牌/产品推荐一百次,几乎每一次响应都将是独一无二的。”
值得注意的是,在所有测试平台中,Claude在两次生成相同品牌列表的方面表现出略高的稳定性,但其推荐顺序的稳定性却相对较低。总体而言,没有任何一个平台达到了研究人员所定义的“可靠重复性”标准。这一现象引发了业界对于AI推荐系统在实际应用中如何保持一致性的广泛讨论。
用户提示词的天然多样性与AI的“考虑集”
研究团队进一步探讨了真实用户如何撰写提示词。他们邀请了142名参与者,让他们为一位旅行中的家庭成员撰写关于耳机的提示词。结果显示,几乎没有两个提示词是完全相同的。这些人工撰写的提示词在语义相似度评分上仅为0.081,费什金先生形象地将其比喻为“宫保鸡丁和花生酱”之间的关系——尽管都是食物,但几乎没有共同之处。
这种高度多样的用户提示词反映了人类表达需求时的自然随意性。然而,尽管提示词形式千变万化,AI工具在返回的品牌推荐中却表现出某种相对稳定的“考虑集”。例如,在针对耳机的994次不同提示词响应中,Bose、索尼(Sony)、森海塞尔(Sennheiser)和苹果(Apple)这几个品牌出现的频率高达55%至77%。这表明,虽然AI的具体推荐列表每次都在变,但其背后的品牌选择范围并非完全随机,而是倾向于从一个预设的、权重较高的品牌池中进行抽取。
对AI可见性追踪的深远影响
上述发现对当前“AI排名位置”这一衡量指标的价值提出了质疑。费什金先生直言不讳地指出:“任何宣称能提供‘AI中排名位置’的工具,都充满了谬论。”因为当每一次查询结果都可能不同时,单一的排名位置就失去了其稳定性和可比性。
然而,报告数据也暗示了一种新的衡量方式:一个品牌在多次类似查询中出现的频率或许更具一致性。在像云计算服务提供商这类竞争激烈的垂直领域中,头部品牌倾向于出现在大多数AI响应中。而在科幻小说这类更广泛的类别中,结果则更加分散,品牌出现的频率和多样性更高。
这一观察与新媒网跨境此前关注的其他报告不谋而合。例如,去年12月,外媒曾发布数据表明,谷歌的AI模式和AI概览在面对相同查询时,引用不同来源的比例高达87%。尽管该报告侧重于同一平台内不同功能之间的差异,而SparkToro的研究则聚焦于同一平台和同一提示词在不同运行批次之间的变动,但两者共同指向了一个明确的模式:AI推荐在各个层面都表现出显著的变异性,无论是在跨平台比较、同一平台内不同功能比较,还是同一功能重复查询时,这种不稳定性都普遍存在。
研究方法声明与展望
这项研究是与Gumshoe.ai合作进行的。费什金先生在报告中披露,Gumshoe.ai销售AI追踪工具,并坦承他最初的假设是AI追踪将证明是“毫无意义的”。研究团队已将完整的实验方法和原始数据公开发布在一个迷你网站上。
值得一提的是,受访者使用了他们平常的AI工具设置,并未进行标准化处理。研究人员表示,这是刻意为之,旨在捕捉真实世界中的变异情况。报告同时承认,这项研究并非经过同行评审的学术研究,费什金先生也指出了其方法论上的局限性,并呼吁进行更大规模的后续工作。
展望未来,这项研究提出了几个悬而未决的问题:究竟需要多少次提示词运行才能获得可靠的可见性数据?API调用与手动提示词的变异性是否相同?当评估市面上的AI追踪工具时,研究结果建议企业应要求提供商展示其方法论。费什金先生强调:“在投入任何资金追踪AI可见性之前,请务必确保你的提供商能够回答我们在此提出的问题,并能展示其计算过程。”
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-brand-recs-random-low-repeat-under-1pc.html


粤公网安备 44011302004783号 













