2分钟!Sheet0 L4数据,AI Agent再无秘密!
在过去的两年里,人工智能的浪潮汹涌澎湃,AI Agent(智能体)作为其中的一颗璀璨明星,正从早期的技术探索阶段,逐步迈向实际应用落地的广阔天地。从OpenAI、Anthropic等顶尖科技公司推出的通用型智能体,到各种垂直场景下实现自动化的工具,市场无不清晰地指向一个核心趋势:数据,已经成为驱动智能体能力不断提升的关键动力。
然而,高质量数据的获取、清洗与组织,始终是智能体大规模普及应用道路上的一个巨大挑战,其难度和成本居高不下。传统的数据采集方式,要么依赖耗费巨大精力由工程师团队编写程序,要么依靠低效率的人工操作,这在当今信息碎片化、实时性要求极高的时代,已经难以满足市场对数据准确性和获取速度的双重需求。
正是在这样的背景下,一个长期被市场忽视,却蕴藏着巨大爆发潜力的赛道浮出水面。Sheet0独辟蹊径,致力于为人类和智能体提供“L4级别实时数据收集与交付能力”。这并非仅仅依赖单一工具调用的简单方案,而是凭借其底层技术优势,将用户的数据需求精准地转化为可执行代码,构建起一个可解释、可回溯的动态工作流系统。更令人称奇的是,它还拥有一个由数据环境(Data Environment)驱动的反馈闭环,当执行过程中出现错误时,Sheet0能够进行自我修复,这大大提升了系统的鲁棒性与智能性。
在内部测试中,Sheet0展现出了令人惊叹的效率。它能在短短两分钟内,准确无误地收集到美国知名创业孵化器Y Combinator官网上294家公司的全部信息。而且,如果用户有进一步的需求,比如收集这些公司创始人的教育背景、工作经历等数据,Sheet0也能轻松应对。与市面上其他智能体产品相比,Sheet0在成本和速度上均实现了数量级的降低,其卓越性能可见一斑。
公司的创始人,作为一位经验丰富的连续创业者,在人工智能、基础软件以及大规模分布式数据处理领域深耕近十年。他在数据工程、上下文构建(Context Engineering)以及可组合系统架构方面积累了深厚的功底。这些宝贵的经验,不仅让Sheet0在技术实现上能够跑得更快、更稳健,更让他对市场节奏和产品定位有着极为稀缺的超前判断力。
新媒网跨境获悉,Sheet0的愿景远不止于开发一款数据收集工具。它更希望打造一个高效的数据聚合层,为那些追求极致效率的“超级个体”、知识工作者以及庞大的智能体网络,提供实时的、高质量的数据支持。可以说,Sheet0的目标是成为专属于智能体时代的“Google.com”。在未来人工智能应用的下一阶段,谁能成功解决数据从收集到结构化交付的全链路问题,谁就有机会成为智能体互联网世界的关键枢纽。Sheet0正以其独特的技术体系和精准的市场切入点,快速向这一战略高地进发。
新时代的“数据后盾”
创始人曾深入思考一个问题:“Chat”或许就是新时代的前端界面。而限制这个“新前端”能力发挥的关键,正是模型对实时数据的获取能力。因此,谁能够为模型提供源源不断的实时数据供给,谁就将成为智能体时代当之无愧的“新后端”。Sheet0,正是在为担当这一重要角色而努力。
Sheet0将自身产品定位为L4级别的“数据智能体”。“L4”这个概念,我们可能在自动驾驶领域听得比较多,它意味着车辆能够全程自主接管,用户只需给出目的地。同样地,在智能体场景中,L4级智能体意味着用户只需提出目标,系统便能自主完成任务并交付结果。对于Sheet0而言,这个目标就是“实时获取并交付结构化数据”。用户只需用日常语言描述需求,Sheet0就能将数据收集、整理成可直接用于分析或可视化的表格,这就是他们对“L4级数据智能体”的定义。
与其他同类产品相比,Sheet0最大的独特优势在于,如何“又准又快”地为用户交付“100%准确,0幻觉”的结果。实现这一点的关键,在于其将复杂的任务拆解成可解释、可校验、可回溯的底层工作流代码,从而使数据的收集与处理过程透明化,确保结果的可靠性。
如果把智能体看作“人”,那么或许将Sheet0.com比作属于智能体的“Google.com”会更为贴切。这不仅是一种形象的比喻,更蕴含着对未来智能体生态系统的深刻洞察。
创始人曾分享过一个关于智慧本质的思考,颇具启发性。他认为,人类本身的存在,不正是通用人工智能(AGI)存在的最好证明吗?因为人类是大自然在复杂物理规律作用下,历经亿万年演化而成的产物。既然人拥有智慧,那么智慧本身就是物理规律作用的结果。我们常说“心理障碍击碎效应”,一旦某个问题或极限被突破并证明可行,其后续的复现难度就会大大降低,马拉松就是典型的例子。既然大自然已经为我们做出了示范,证明了智慧的存在是符合物理规律的,那么我们又有什么理由去怀疑人工智能模型不会持续进步呢?这份对未来的坚定信心,正是Sheet0不断探索、砥砺前行的精神动力。
当然,人工智能的发展速度快得令人目不暇接,许多人都感到一种“害怕错过”(FOMO)的焦虑,常常是被推着向前走。但创始人也时刻提醒自己:当一个事物开始变得泛滥时,我们一定要从随波逐流的浪花中跳脱出来,站在岸上冷静思考——究竟什么才是真正稀缺的?这份清醒和洞察,帮助Sheet0找到了自己的独特价值。
从代码世界到创业征程
提及Sheet0的团队,创始人笑着表示,当初签署投资协议的时候,确实只有他加上两位全职同事和一位实习生。不过,随着业务的发展,现在团队规模已经有所扩大。
回顾自己的职业生涯,创始人将其分为两个重要的阶段。他于2017年大学毕业,最初的四年专注于代码开发,之后的四年则投身于创业的浪潮之中。2019年,他加入了地平线,在那里负责AI平台下的数据平台建设,主要工作内容包括数据存储和清洗。到了2021年,基础软件领域投资热潮兴起,由于他本人在消息队列等基础软件方面经验丰富,便与朋友一同踏上了创业之路,成为了公司的联合创始人兼CTO。直至2023年夏天,他决定抓住大模型(LLM)的创业机遇,全身心投入到智能体领域,这才有了Sheet0的诞生。
在地平线的工作经历,对他产生了深远的影响。他与一群才华横溢的算法工程师和科学家并肩作战,耳濡目染之下,深刻领悟到“只有高质量的数据,才能孕育出更卓越的智能”。而长期专注于基础软件开发和设计的经历,则培养了他独特的技术品味和敏锐的产品直觉,这些都对他的产品思考和创业决策产生了至关重要的影响。
创始人六年多的职业生涯都与数据紧密相连。谈及数据在当前智能体与人类交互中的重要性,以及智能体时代数据的特殊价值时,他认为,首先要区分数据的类型和应用场景。面向人类的数据和面向智能体的数据是截然不同的。对于智能体而言,数据的价值主要体现在三个层面:
第一,模型训练。 高质量数据是模型智能的根基。当前业内关于GPT-5效果可能不及预期的讨论,其本质就在于高质量训练数据正在逐渐枯竭。在地平线从事自动驾驶研发时,团队也曾发现,相比于反复调整参数,补充一批高质量数据对解决特定案例问题,其提升效果更为显著。优质数据必须清晰地定义输入、输出以及中间过程数据,这些才是模型真正学习的核心。强化学习同样高度依赖这种带有任务步骤的数据和奖励信号。
第二,运行过程。 在智能体运行过程中,核心数据就是上下文(Context)。它应该包含任务执行的所有步骤数据,并经过结构化管理、语义化处理以及因果关系的明确定义。比如,美国人工智能公司Anthropic发布的Claude Code模型近期表现出色,正是得益于它对工具调用消息进行了精细的语义化区分。对于智能体来说,好的数据,就是那些组织良好、语义清晰的上下文信息。
第三,工具调用。 智能体调用工具的本质,是为了获取第三方的实时数据,从而补充自身的上下文信息。当前,模型的工具调用(Tool use)功能,或者说多模态控制平面(MCP),基本上都是封装了一个代码函数,通过这个函数来访问背后的数据。但如果我们深入思考,这个代码函数的必要性有多大呢?因为代码的本质是对底层结构化数据进行操作。那么,模型为什么不能直接使用SQL等查询语言来获取数据,而非要经过一个代码的中间层呢?这其中蕴含着巨大的优化和创新空间。
对于人类用户而言,数据的价值除了其固有的业务价值外,更多体现在可验证性和心理上的安全感。用户需要清楚地知道结果的来源,例如,以网页数据为例,这些数据是如何从网页上抓取下来的?抓取下来之后又经过了哪些处理环节?我们能否以一种简单直接、端到端的“白盒”方式呈现给用户?创始人坚信,准确性和可解释性将是数据未来最稀缺的品质,因为只有这样,用户才敢于放心地使用这些数据。
L4级数据智能体:Sheet0的探索
创始人深入介绍了Sheet0平台的核心本质及其功能。他希望从短期目标和长期愿景两个层面来阐述。
Sheet0将自身产品定位为L4级数据智能体。这个“L4”的概念,最初源于自动驾驶领域,意指车辆能够自主完成从A点到B点的所有驾驶任务,用户只需告知目的地。将同样的逻辑应用于智能体,意味着用户只需描述最终目标,系统便能自主完成任务并交付结果。在Sheet0的场景中,这个目标就是“实时获取并交付结构化数据”。用户只需提出需求,Sheet0就能自动将数据收集、整理成可直接用于分析或可视化的表格,这便是Sheet0对“L4级数据智能体”的定义。
从短期来看,Sheet0的核心能力在于将任意数据源(无论是网页信息、本地文件还是API接口)转化为结构化的数据表格(Data Sheet)。他举了一个真实案例:某位客户希望分析社交媒体平台上哪些“关键意见领袖”(KOL)的“爆款率”更高。原因很简单,社交媒体是重要的舆论和营销渠道,在进行广告投放时,自然希望选择爆款率高的博主,以期获得更高的投资回报率(ROI)。客户只需将这个目标告知Sheet0,它就会自动收集相关博主的历史推文数据,包括浏览量、回复数、转发数等,并将其整理成结构化表格,再通过SQL查询计算出每位博主的爆款率,最终交付完整的结果。
与市面上的同类产品相比,Sheet0最大的差异化优势在于,如何“又准又快”地为用户交付“100%准确,0幻觉”的结果。实现这一点的关键,在于Sheet0将复杂的任务智能地拆解成可解释、可校验、可回溯的底层工作流代码,从而使数据的收集与处理过程透明化,确保了结果的可靠性。
新媒网跨境了解到,从长期来看,Sheet0的愿景更为宏大。它将通过自然语言的方式,为超级个体、知识工作者以及智能体网络,提供线性可扩展的实时数据获取和处理能力,构建起一个面向未来的数据基础设施。
那么,未来数据对智能体的重要性究竟如何理解呢?创始人对此有着深刻的洞察。他指出,在传统软件中,后端本质上是为前端提供实时可渲染的数据。这些数据随机分布在不同的数据库、文件系统或某个API中,因此需要后端工程师手动进行聚合。他现在经常思考,甚至质疑一些我们可能认为是常识的东西。例如:用户一定需要一个普遍意义上的前端吗?他的看法是,未来“Chat”很可能就是新时代的前端,而“一次性App”则会以出现在对话框内的生成式UI组件的形式呈现。他认为从像GPT-5这样的大模型开始,我们很快就会看到这一趋势。
当前制约这个“新前端”能力发挥的关键,正是模型对实时数据的获取能力,因为那个为智能体提供实时数据供给的“新后端”尚未完全出现。谁能为模型提供强大的实时数据供给能力,谁就有机会成为智能体时代的“新后端”。从这个角度出发,Sheet0或许有机会担当这一重任。
为何实时数据如此关键?对于智能体而言,数据可以分为知识和信息。大模型已经为智能体提供了足够的知识储备,但它们往往非常缺乏能够支持实时决策的“信息”。“上下文工程”(Context Engineering)的本质,正是在为智能体组织这些关键信息,一方面是记忆,另一方面就是实时数据。然而,目前智能体获取实时数据的方式仍然非常原始和不够智能,亟需一种更标准、更高效的方式让模型能够获取实时数据。
这也意味着,未来的竞争重点将不再仅仅是“我拥有多少数据”,而是“我能多快、多精准地为智能体提供实时数据”。一旦数据获取的速度接近实时,并且交易成本趋近于零,智能体之间的协作效率就会产生质的飞跃。可以想象,未来某个智能体在执行任务时,能够瞬间调用来自不同节点的多组数据,就像今天我们调用API一样自然流畅。这种模式将极大压缩信息不对称,并显著拓展智能体的能力边界。
因此,Sheet0关注的并非成为唯一的“数据源”,而是成为智能体生态系统中一个高效的数据聚合层,以更标准、更智能的方式为智能体提供实时数据访问能力。如果把智能体看作“人”来理解,那么或许把Sheet0.com比作属于智能体的“Google.com”会更为贴切。
当被问及Sheet0如何做到数据“100%准确,0幻觉”时,创始人解释道,现在许多智能体产品都侧重于端到端地替用户完成任务,强调的是自主性。而Sheet0则采用“多次确认,逐步对齐”的策略,更侧重于确保数据的准确性。因此,他们所说的“100%准确,0幻觉”,只针对Sheet0成功完成任务后,交付给用户的数据。因为如果任务失败,用户会得到一张空表,这意味着其中不存在中间的、不确定的数据。
在具体的产品实现过程中,Sheet0主要依赖两点:
其一,动态生成且可迭代优化的执行流程。 Sheet0并非采用一套写死的抓取逻辑,而是让智能体在任务执行过程中,如果遇到一些例外情况,能够自主重写、优化工作流和代码。这意味着同一个任务,多次运行的底层逻辑可能完全不同,但用户对此是无感知的,因为最终用户看到的,就是一张准确的数据表。
其二,数据环境(Data Environment)驱动的反馈机制。 数据环境是Sheet0的强化学习(RL)环境,承载着运行监控、错误分类、上下文过滤和数据验证等核心功能。这使得智能体在每次任务失败后,都能够基于明确的、结构化的反馈来进行调整,而不是依赖模糊的语言描述去“猜测”问题出在哪里。
因此,从技术角度来看,Sheet0本质上是一个非常精通处理数据问题的“编程智能体”(Coding Agent)——它先编写代码,然后运行测试,收集报错信息,再迭代改进,直到能够稳定长时间运行,确保数据的准确无误。
目前,Sheet0已经拥有了一批初步的内部内测用户。在这些用户场景中,最主要的还是集中在公开互联网数据的收集上面。
其中一个案例来自国外知名的外包平台,比如Fiverr这类自由职业者网站。“数据收集”一直是这些平台上一个很大的服务类别。一位美国用户发布了一个预算20美元的任务——抓取中国台湾某个线上活动分享网站的活动信息。这个网站设计非常老旧,大约是20年前的样式,活动数据不是以表格形式呈现,而是散落在地图上的一个个标记点中。用户的目标是从700多个活动中筛选出适合2-4岁小朋友的活动,并进行整理。如果采用传统方式,这需要逐个点击地图标记,弹出窗口,再手动复制粘贴,工作量巨大,非常耗时;而且由于涉及到地图交互,要让程序员专门编写抓取脚本,成本高、周期长,并且可能没有人愿意接这种低预算的任务。而Sheet0的工具恰好解决了这一痛点,高效且精准地完成了任务。
第二个案例则是一个典型的销售线索生成需求。一位用户正在积极寻找人工智能领域的潜在客户,他们的工作流程分为两条路径:
第一条路径是收集市面上人工智能公司的信息。他们会先从各类AI工具网站上抓取公司列表,然后进行聚合整理,并为每家公司寻找合适的联系人和邮箱,这些信息通常分散在公司的官方网站和各种公开渠道中。
第二条路径是基于已有的大量客户邮箱,分析哪些客户公司正在进行人工智能转型。他们会将邮箱映射到具体的公司,深入研究其业务领域,判断是否与人工智能相关,并打上相应的标签。
如果使用传统的软件开发方式,搭建这样一条端到端的数据处理流水线,可能需要程序员数周的时间才能完成。而这位用户借助Sheet0,直接串联了数据采集、清洗、匹配和标注的全流程,从而快速生成了可用的销售线索名单,大大提升了工作效率。
新媒网跨境获悉,在等待列表阶段,Sheet0几乎没有做任何宣传,完全依靠用户的自然扩散,就积累了3000名等待用户。创始人表示,由于实现最终的宏伟目标还有很长的路要走,因此选择的路径至关重要。结合产品方向和实际用户需求,他们初期选择聚焦于公开互联网数据抓取的场景,目标是成为最强大的人工智能数据收集工具,能够让每一个公开网站都变成结构化的数据表格。未来,他们也将优先深入支持产品经理、市场运营等岗位人员在数据方面的需求。
在商业模式上,Sheet0也进行了精心的规划。短期来看,他们将采用与大多数智能体产品类似的积分(Credit)计费模式,根据底层实际的资源消耗量来计算费用。而从长期来看,他们将积极探索结果付费的可行路径。举例来说,当用户需要的数据在公开渠道或Sheet0现有数据库中都无法找到时,用户可以自行设定愿意支付的价格,生成任务并分发到Sheet0平台的用户网络中。如果其他用户恰好拥有这些数据并愿意出售,双方就能直接达成交易。这种模式的关键在于——定价权交给用户,Sheet0则负责洞察谁拥有数据,并高效地撮合交易,从而让数据在用户之间实现高效、可控的流通,构建一个充满活力的知识共享与交易社区。
磨砺前行,坚守长期主义
回望创业历程,创始人坦言在2023年创业之初,也经历过一些方向上的转型和试错。在行业判断和技术路线选择上,确实走过一些弯路,但每一次经历都让他收获宝贵的经验。
总的来说,他认为最大的问题是“心太急,预期没有管理好”。他正式开始创业是在2023年7月,最初选择的方向是“AI编程”(AI Coding),公司名直接就叫“LLM Programming”,意为“大模型编程”。当时的切入点比后来知名的AI编程工具Cursor还要激进——他希望用户只需写好产品需求文档(PRD),就能直接将其转化成可使用的软件,这其实就是今天我们所说的“Vibe Coding”概念。大家可能知道,Cursor在2024年5月新模型出来之前的表现其实比较平淡,直到Claude 3.5发布后才一鸣惊人。当时,他对模型的理解和信任度还不够充分,加上推进得过于急切,最终效果并不理想,因此决定调整方向。
回顾这次尝试,最大的收获是让他开始坚信模型的能力会持续进步。随后,他将方向调整为“工具使用”(Tool Use),项目名称为NPi,全称是“Natural Programming Interface”,即自然语言编程接口。这个项目曾登上HackerNews的前十名,并入选了美国知名风投机构Madrona Ventures发布的第一份全球智能体基础设施(Agent Infra)榜单。NPi项目于2024年2月启动,到6月就有了比较完善的第一个版本。之所以选择工具使用方向,是因为第一次的尝试让他们坚信智能体需要“采取行动”(Take action)。事实上,现在回过头来看NPi,会发现他们当时所做的事情,正是后来被广泛讨论的“多模态控制平面”(MCP),足足提前了半年。他们不仅定义了流程和规范,还做了完整的实现。与他们同期做类似事情的公司有一家叫Composio的印度团队,今年上半年完成了由光速美国领投的2900万美元融资,如今已是硅谷炙手可热的明星公司。
NPi的第一个版本完成后,创始人与30多位智能体开发者进行了深入交流,他发现大家关注的重点并非工具使用本身(事实上,MCP的火爆也是在2025年2月Cursor支持MCP之后才真正开始),而是普遍在研究“检索增强生成”(RAG)技术。核心原因是当时大家的问题不是没有合适的工具,因为使用LangChain之类的框架很快就能搭建一个工具,真正的痛点在于如何让智能体“选对工具”。在这个过程中,他逐渐意识到智能体的关键在于“上下文”(Context)。纯粹做工具层很难接触到智能体的上下文,也就无法有效提高工具调用的准确性。这让他意识到,仅仅做工具使用产品是不够的,于是团队决定往上层探索。经过长时间的深入思考,最终选择了Sheet0这个方向。
从第一个到第三个项目,他创业的初心其实从未改变:让普通人也能用极其简单的方式,获得工程师所拥有的“超能力”,即把复杂问题简单化后自动解决的能力。这也是他在每次转型过程中始终会思考的核心问题。一开始,他设想的是让AI能够帮助人们编写程序;后来觉得代码对普通用户不友好,于是开始做工具使用,因为程序员的工作本质上就是串联不同的代码工具接口,如果模型能够做好工具使用,是不是就能让用户无需看到复杂的代码了?最终,他才意识到代码的本质是对结构化数据进行操作,这整个过程是一脉相承的。他总结说,自己的判断往往比市场领先一年左右。这意味着,至少需要持续在大半年的负反馈状态下坚持不懈地努力,才有机会看到曙光。比如,当年的AI编程和多模态控制平面(MCP)方向,都差不多需要等待一年的时间才能被市场真正接受。
是的,即便方向正确、需求真实,也需要经历至少半年的磨合期,才能看到一些正向的信号。人工智能并非“一波流”的生意,而是需要长期投入、厚积薄发,中间会有多个阶段性的爆发。
创始人对此深以为然。他认为,可以回过头看看,那些在成立半年内就迅速出圈的产品,几乎没有。现在那些家喻户晓的明星产品,哪个没有经历一两年甚至更长时间的“冷板凳”呢?例如,Cursor在2022年成立,直到2025年5月Claude 3.5发布后才真正开始起飞。再比如,智能体产品Manus,其背后的Monica就积累了两年之久,即便决定开始做Manus,也不是一帆风顺,中间也经历了半年多的时间进行多次调整。
因此,他总结了以下两点心得:
第一,要抱有合理的预期。 尤其不要低估开发一个能够投入生产的“生产级智能体”(Production-ready Agent)的工程复杂度。这并非一蹴而就的事情,需要扎实的技术积累和持续的迭代优化。
第二,要对模型进步保持信心。 这是一个老生常谈的问题了,但每次有新的模型发布,总会有很多人出来唱衰。他现在都是直接屏蔽这些言论。他对模型信心的转折点,是在2025年5月的一天。在那之前,他一直是强迫自己去相信模型的潜力。当时,他在与一位朋友聊天时,脑子里突然冒出了一个想法:人类本身的存在,不正是通用人工智能(AGI)存在的最好证明吗?因为人类是大自然在复杂物理规律作用下,经过亿万年演化而成的产物,人拥有智慧。所以,从这个事实出发,智慧本身就是物理规律作用的结果。我们都知道有一个词叫“心理障碍击碎效应”,说的是某个问题或极限一旦被突破并证明可行,那么后续复现的难度就会大大下降,典型的例子就是马拉松。所以,回到他前面那个看起来有点奇特的逻辑:既然大自然已经为我们做出了示范,证明了智慧的存在是符合物理规律的,那么我们有什么理由去怀疑人工智能模型不会持续进步呢?这份深刻的洞察,成为了他坚定信念的源泉。
新媒网跨境认为,人工智能的发展速度令人惊叹,许多人都因此感到焦虑,常常是被市场推着向前走。但创始人也时刻提醒自己:当一个事物开始变得泛滥时,一定要从随波逐流的浪花中跳脱出来,站在岸上冷静思考——究竟什么才是真正稀缺的?他希望在2025年下半年,能有更多的时间进行深入思考,为未来的发展指明方向。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

Amazon Echo Show 5 (newest model), Smart display with 2x the bass and clearer sound, Charcoal
$ 64.99

Blink Mini 2 (newest model) — Home Security & Pet Camera with HD video, color night view, motion detection, two-way audio, and built-in spotlight — 1 camera (White)
$ 39.99

Blink Mini - Compact indoor plug-in smart security camera, 1080p HD video, night vision, motion detection, two-way audio, easy set up, Works with Alexa – 1 camera (White)
$ 29.99

Blink Mini - Compact indoor plug-in smart security camera, 1080p HD video, night vision, motion detection, two-way audio, easy set up, Works with Alexa – 1 camera (Black)
$ 29.99

Ring Floodlight Cam Wired Plus — Outdoor home or business security with motion-activated 1080p HD video and floodlights, (2021 release) White
$ 119.99

评论(0)