OpenAI重金激励AI人才！Meta豪掷1亿美金抢夺，AI推理成跨境新风口？

在人工智能领域，OpenAI 公司的发展历程一直备受关注。该公司在 2022 年迎来了一位名叫 Hunter Lightman 的研究员。Lightman 入职后不久，便目睹了他的同事们推出了 ChatGPT，这款产品以惊人的速度风靡全球。与此同时，Lightman 则默默地带领着一个团队，致力于训练 OpenAI 的模型来解决高中数学竞赛难题。

如今，这个名为 MathGen 的团队被认为是 OpenAI 在人工智能推理模型领域取得领先地位的关键力量。这些推理模型是人工智能代理背后的核心技术，它们能够像人类一样在计算机上执行各种任务。

Lightman 向外媒透露，MathGen 团队早期的工作重点是提高模型在数学推理方面的能力，因为当时的模型在这方面表现不佳。

尽管 OpenAI 的模型距离完美还很遥远，其最新的人工智能系统仍然存在产生幻觉的问题，并且在处理复杂任务时也显得力不从心，但其最先进的模型在数学推理方面已经取得了显著的进步。OpenAI 的一个模型最近在国际数学奥林匹克竞赛中荣获金牌，这是一项面向全球最优秀高中生的数学竞赛。

OpenAI 认为，这些推理能力可以迁移到其他学科，并最终驱动通用人工智能代理的开发，而这正是该公司一直以来的梦想。

ChatGPT 的成功带有一定的偶然性，它最初只是一个低调的研发预览，却意外地成为了一个广受欢迎的消费级产品。但 OpenAI 的人工智能代理则是该公司多年来有意识、有计划地努力的成果。

OpenAI 首席执行官 Sam Altman 在 2023 年公司的首次开发者大会上表示：“最终，你只需向计算机提出你的需求，它就会为你完成所有这些任务。人工智能领域通常将这些能力称为代理。它们的优势将是巨大的。”
OpenAI CEO Sam Altman speaks during the OpenAI DevDay event on November 06, 2023 in San Francisco, California.

人工智能代理是否能够实现 Altman 的愿景还有待观察。但在 2024 年秋季，OpenAI 发布了其首个人工智能推理模型 o1，震惊了世界。不到一年后，参与这一突破性成果的 21 位基础研究人员成为了硅谷最炙手可热的人才。Meta 公司的 Mark Zuckerberg 招募了其中的五位 o1 研究人员，让他们参与 Meta 新成立的专注于超人工智能的部门，并为他们开出了超过 1 亿美元的薪酬待遇。其中一位研究人员 Shengjia Zhao 最近被任命为 Meta 超人工智能实验室的首席科学家。

强化学习的复兴

OpenAI 推理模型和人工智能代理的崛起与一种名为强化学习（RL）的机器学习训练技术密切相关。强化学习通过模拟环境向人工智能模型提供反馈，判断其选择是否正确。

强化学习已经应用了几十年。例如，在 2016 年，也就是 OpenAI 成立一年后，谷歌 DeepMind 使用强化学习创建的人工智能系统 AlphaGo 在击败围棋世界冠军后引起了全球关注。
无alt

大约在那个时候，OpenAI 的早期员工之一 Andrej Karpathy 开始思考如何利用强化学习来创建一个能够使用计算机的人工智能代理。然而，OpenAI 花费了数年时间才开发出必要的模型和训练技术。

到了 2018 年，OpenAI 开创了其首个大型语言模型 GPT 系列，该模型在海量的互联网数据和大型 GPU 集群上进行了预训练。GPT 模型擅长文本处理，并最终促成了 ChatGPT 的诞生，但在基础数学方面却表现不佳。

直到 2023 年，OpenAI 才取得了一项突破，最初被称为 "Q*"，后来又被称为 "Strawberry"，它将大型语言模型、强化学习和一种名为测试时计算的技术结合在一起。后者为模型提供了额外的计算时间和算力来规划和解决问题，并在给出答案之前验证其步骤。

这使得 OpenAI 能够引入一种名为 "思维链"（CoT）的新方法，该方法提高了人工智能在处理之前未见过的数学问题时的性能。El Kishky 说："我可以看到模型开始推理。它会注意到错误并回溯，它会感到沮丧。这真的感觉像是在阅读一个人的想法。"

虽然这些技术单独来看并不新鲜，但 OpenAI 将它们独特地结合在一起，创造了 Strawberry，这直接促成了 o1 的开发。

OpenAI 迅速意识到，人工智能推理模型的规划和事实核查能力可以用来驱动人工智能代理。Lightman 说："我们解决了一个困扰了我好几年的问题。那是我研究生涯中最激动人心的时刻之一。"

推理能力的扩展

通过人工智能推理模型，OpenAI 确定了两个新的维度，可以用来改进人工智能模型：在人工智能模型的后训练中使用更多的计算能力，以及在回答问题时给予人工智能模型更多的计算时间和处理能力。

Lightman 表示："OpenAI 作为一家公司，不仅会考虑现状，还会考虑未来的发展方向。"

据外媒报道，在 2023 年 Strawberry 取得突破后不久，OpenAI 成立了一个由 OpenAI 研究员 Daniel Selsam 领导的 "代理" 团队，以进一步推进这一新范式。尽管该团队被称为 "代理"，但 OpenAI 最初并没有区分推理模型和我们今天所理解的代理。该公司只是想开发出能够完成复杂任务的人工智能系统。

最终，Selsam 的 "代理" 团队的工作成为了一个更大的项目的一部分，该项目旨在开发 o1 推理模型，其领导者包括 OpenAI 联合创始人 Ilya Sutskever、首席研究官 Mark Chen 和首席科学家 Jakub Pachocki。
Ilya Sutskever, Russian Israeli-Canadian computer scientist and co-founder and Chief Scientist of OpenAI.

OpenAI 将不得不转移宝贵的资源（主要是人才和 GPU）来创建 o1。在 OpenAI 的发展历程中，研究人员不得不与公司领导层进行谈判以获取资源；展示突破性成果是获得资源的一种可靠方式。

Lightman 说："OpenAI 的核心组成部分之一是研究中的一切都是自下而上的。当我们展示 [o1] 的证据时，公司表示，'这很有道理，让我们继续推进它。'"

一些前员工表示，这家初创公司开发通用人工智能的使命是实现人工智能推理模型突破的关键因素。通过专注于开发最智能的人工智能模型，而不是产品，OpenAI 能够优先考虑 o1 而不是其他工作。在其他人工智能实验室，对想法进行如此大规模的投资并非总是可行的。

事实证明，尝试新的训练方法是具有先见之明的。到 2024 年底，一些领先的人工智能实验室开始看到通过传统的预训练扩展创建的模型的回报递减。如今，人工智能领域的大部分动力都来自推理模型的进步。

人工智能 "推理 "意味着什么？

在许多方面，人工智能研究的目标是用计算机重现人类智能。自从 o1 推出以来，ChatGPT 的用户体验中就充满了更像人类的功能，例如 "思考 "和 "推理"。

当被问及 OpenAI 的模型是否真的在推理时，El Kishky 没有正面回答，他说他从计算机科学的角度来思考这个问题。"我们正在教模型如何有效地利用计算来获得答案。所以如果你这样定义它，是的，它就是在推理，"El Kishky 说。

Lightman 的方法是关注模型的结果，而不是手段或它们与人类大脑的关系。
The OpenAI logo on screen at their developer day stage.

Lightman 说："如果模型在做困难的事情，那么它就是在做任何必要的推理近似，以便做到这一点。我们可以称之为推理，因为它看起来像这些推理轨迹，但这只是一种试图制造对很多人来说真正强大和有用的人工智能工具的代理。"

OpenAI 的研究人员指出，人们可能不同意他们的命名法或推理定义，而且肯定会出现批评者，但他们认为这不如他们模型的能力重要。

其他人工智能研究人员也倾向于同意这种观点。非营利组织 AI2 的人工智能研究员 Nathan Lambert 在一篇博客文章中将人工智能推理模式比作飞机。他说，两者都是受自然启发的、人造的系统——分别是人类推理和鸟类飞行——但它们通过完全不同的机制运作。但这并不会降低它们的效用，也不会降低它们实现类似结果的能力。

来自 OpenAI、Anthropic 和 Google DeepMind 的一组人工智能研究人员在最近的一份立场文件中一致认为，目前对人工智能推理模型的理解还不够深入，需要进行更多的研究。现在就自信地断言它们内部到底发生了什么可能还为时过早。

下一个前沿：用于主观任务的人工智能代理

目前市场上的人工智能代理在定义明确、可验证的领域（如编码）中表现最佳。OpenAI 的 Codex 代理旨在帮助软件工程师卸载简单的编码任务。与此同时，Anthropic 的模型在 Cursor 和 Claude Code 等人工智能编码工具中变得特别受欢迎——这些是人们愿意付费购买的首批人工智能代理。

然而，像 OpenAI 的 ChatGPT Agent 和 Perplexity 的 Comet 这样的通用人工智能代理在处理人们想要自动化的许多复杂的、主观的任务时却显得力不从心。当试图使用这些工具进行在线购物或寻找长期停车位时，笔者发现这些代理花费的时间比我预期的要长，并且会犯一些愚蠢的错误。

当然，代理是早期系统，无疑会得到改进。但研究人员必须首先弄清楚如何更好地训练底层模型来完成更主观的任务。
无alt

当被问及代理在主观任务上的局限性时，Lightman 说："就像机器学习中的许多问题一样，这是一个数据问题。我现在真正感兴趣的一些研究是弄清楚如何在不太可验证的任务上进行训练。我们有一些关于如何做这些事情的线索。"

OpenAI 研究员 Noam Brown 帮助创建了 IMO 模型和 o1，他告诉外媒，OpenAI 拥有新的通用强化学习技术，这些技术使他们能够教会人工智能模型不易验证的技能。他说，该公司就是这样构建在 IMO 中获得金牌的模型的。

OpenAI 的 IMO 模型是一个较新的人工智能系统，它会产生多个代理，然后这些代理同时探索多个想法，然后选择最佳答案。这些类型的人工智能模型正变得越来越受欢迎；谷歌和 xAI 最近发布了使用这种技术的最先进的模型。

Brown 说："我认为这些模型在数学方面会变得更强大，我也认为它们在其他推理领域也会变得更强大。进展非常快。我没有任何理由认为它会放缓。"

这些技术可能会帮助 OpenAI 的模型变得更有效，这些收益可能会在该公司即将推出的 GPT-5 模型中显现出来。

OpenAI 希望通过推出 GPT-5 来巩固其相对于竞争对手的统治地位，理想情况下，它可以提供最好的人工智能模型来为开发者和消费者提供代理。但该公司也希望使其产品更易于使用。

El Kishky 说，OpenAI 希望开发出能够直观地理解用户想要什么的人工智能代理，而不需要他们选择特定的设置。他说，OpenAI 的目标是构建能够理解何时调用某些工具以及推理多长时间的人工智能系统。

这些想法描绘了一个 ChatGPT 终极版本的蓝图：一个可以在互联网上为你做任何事情，并且理解你希望它如何完成的代理。这与 ChatGPT 今天的样子大不相同，但该公司的研究正朝着这个方向发展。

几年前，OpenAI 无疑引领着人工智能行业，但现在该公司面临着众多强大的对手。问题不再仅仅是 OpenAI 是否能够实现其代理未来，而是该公司是否能够在谷歌、Anthropic、xAI 或 Meta 抢先一步之前做到这一点？新媒网跨境了解到，OpenAI 在人工智能推理模型和代理方面的探索仍在继续，未来的竞争格局充满变数。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/9706.html