人工智能验证时代:超越当前的人工智能叙事
随着人工智能系统能力不断提升并日益深入地融入决策过程,接下来的挑战已不再仅仅是生成能力,而是验证、信任以及对现实世界的理解

帕特里克·卢西博士是Stats Perform的首席科学家,负责领导该公司的AI研究与创新战略。在这篇最新文章中,他探讨了围绕AI的讨论如何正从“系统能生成什么”转向“组织如何能够可靠地信任、验证并大规模应用AI”——以及为何体育正成为这个新时代的试金石。
在过去的几个月里,我深入考察了整个人工智能生态系统——从 NVIDIA GTC ,到 麻省理工学院体育峰会 的热烈舞台,到 威斯康星州商业人工智能峰会的战略重点,即我们自己的 Opta论坛,以及一间EMBA课堂。

抛开各类峰会和会议不谈,很明显我们已经到达了一个转折点。讨论的焦点已从当前具有自主能力的AI模型能做什么的“新奇感”,转向了它们应该做什么的必要性。 我们正逐渐摆脱将人工智能视为被动响应的聊天机器人的观念,转而将其视为主动的生产系统——即“AI工厂”。然而,在部署这些工厂之前,我们必须确保必要的验证和监管机制到位。当商界专注于在数字领域部署这些系统时,研究与创新的“热点”却牢牢聚焦于物理人工智能。
但这与我们在体育界所做的工作有何关联?
体育之所以独一无二,是因为它恰好处于物理世界与数字世界的完美交汇点。尽管许多行业完全存在于由文字、代码和图像构成的数字世界中,但体育本质上关乎人类在现实中如何运用自己的身体。 它是地球上最具价值的资产之一——不仅在经济层面,更在社会层面——并构成了我们全球社会结构的一部分,通过一种普世语言将跨越国界的社区紧密相连。正因为我们如此珍视这些人类的瞬间,数据的生成以及通过人工智能对这些数据的利用必须无可挑剔。我撰写本文的动机有两点:
- 连接生态系统:确保体育界充分了解更广泛的人工智能领域正在发生的快速变革——特别是向自主工作流和“AI工厂”的转变——以及这些全球趋势如何直接与赛场产生关联。
- 体育作为终极试金石:向体育界以外的人士证明,我们在体育人工智能领域所开展的工作堪称当今最尖端的技术。正因为我们必须在实时且大规模的环境下解决物理层面的真实问题,体育便成为了检验人工智能可靠性的终极“压力测试”,也是以可验证性、可信度和可靠性为核心的下一代人工智能的试金石。
以下是我在此期间观察到的主要趋势的总结,以及这些趋势与我们在Stats Perform的工作之间的关联。
1. 合理使用代币
在英伟达(NVIDIA)的GTC大会上,首席执行官黄仁勋强调,我们已经迈出了传统数据中心的时代。几十年来,这些数据中心一直是被动的成本中心——专为存储和检索信息而设计的数字仓库。如今,我们正在建设AI工厂:这些设施真正承担着实际工作。在这个新范式下,代理式AI(Agentic AI)正是执行这些工作的引擎。
实际上,这些智能系统就像是“数字员工”——它们能够自主规划、使用软件并完成多步骤的工作流程。诸如 Claude Code 或 OpenClaw 等工具,让我们得以一窥这种新型“自动化劳动力”的雏形。
从业务运营的角度来看,随着人们开始从价值和效率的角度审视问题,讨论的焦点已从“如何使用人工智能?”转变为“如何最好地利用人工智能?”。虽然人工智能让编写代码或生成内容变得异常简单,但也带来了一项新的负担:即需要维护和验证新的代码库及输出结果。
在决定如何部署这些“工厂”时,我们必须保持务实态度。计算资源并非免费。用一个具备高级推理能力的智能体来处理简单的电子表格查询,就好比用喷气发动机去超市买菜。正因如此,我们看到人工智能公司正在迅速调整定价模式,以反映使用智能体人工智能系统的真实成本。如果企业不加注意,计算预算可能会在极短时间内耗尽。 此外,每一项自动化操作都意味着新的安全风险——Anthropic公司的Mythos模型最近就通过这一事实进行了印证:它仅用数秒便揭露了那些经受了数十年人工审查仍未被发现的漏洞。
从许多方面来看,这反映了经典机器学习的一个核心原则:有时线性模型优于深度神经网络,因为它更容易进行正则化,更易于解释,且更难被攻破。
2026年的信息很明确:
如果你不了解人工智能系统的运作原理,也无法对其进行验证,那么你最好不要去开发它。“黑箱”辩护已不复存在。随着《欧盟人工智能法案》等法规全面实施,以及美国各州法律引入严格的民事责任条款,组织如今在法律和道德层面都要对每一项“自主”产生的幻觉负责。你不能躲在自己不理解的系统背后。
要在人工智能时代取得成功,企业需要能够监督人工智能系统、识别边界情况并在必要时进行干预的专家。
2. 语境专家的时代
无论是在我走访的行业峰会还是课堂上,一个问题始终萦绕在每一次对话之中:“我的工作未来会怎样?”对于应届毕业生和失业人员而言,代理式人工智能(Agentic AI)——即能够自主探索数字世界并编写自身软件的系统——的兴起,都引发了切实的担忧。
我们正亲眼目睹一个悖论:尽管人工智能已成为未来工作的基石,但本学年的计算机科学专业招生人数却下降了8.1%,降幅在所有专业中最为显著。
为何出现这种下滑?在我看来,这是因为“程序员时代”正被“情境专家时代”所取代。一般的编程知识正逐渐商品化。真正的差异化因素在于深厚的领域专业知识——特别是在“最后一公里”环节,必须理解并验证边界情况、限制条件以及现实世界中的变数。 当人工智能处理常规情况时,人类的专业知识就变得至关重要,它能确保系统在最关键的场景中表现正确。
在医学、法律和金融等受监管领域,价值正从生成式的“猜测”转向确定性的审计。这就是 杰文斯悖论 的真实写照:随着人工智能使基础认知任务变得更廉价、更快捷,我们并非减少工作量——而是产生了指数级增长的工作量。我们在会计领域曾目睹过类似现象:电子表格的引入曾被许多人预期会减少对会计师的需求,但最终却扩大了该领域。 随着产出的规模扩大,风险也在同步增长。结果并非工作量减少,而是对高水平专业知识的需求日益增长,以对这些工作进行核查、验证,并最终承担责任。AI将协助这一过程,但责任归属无法被自动化——人类专家对于核查和签字确认依然不可或缺。
不过,我认为编程作为一项核心技能不会消失。相反,真正的优势将来自将扎实的编程能力与深厚的领域专业知识相结合。编程和人工智能将日益成为各学科的基础——它们不再是独立的专长,而是核心能力。
在体育界,专业知识是无法伪装的。
风险太高,且背景过于特殊。新的准入门槛不仅在于技术能力——更在于验证人工智能输出结果并参与更高层次价值链运作所需的领域知识,从而实现从描述性分析向创造性创新的转变,为球队和球迷带来切实的影响。
这一转变的一个鲜明例证出现在我们的 Opta论坛上便显现出来。
从历史上看,分析师和数据科学家一直受限于仪表盘维护和常规报告工作。随着Agentic AI的出现,这种局面正在发生改变。仪表盘正演变为一个验证层——它不再是发现洞察的终点,而是用于审核和验证AI系统所生成成果的界面。在与全球顶尖俱乐部的交流中,一个共同的主题浮出水面:分析师和数据科学家终于能够专注于他们一直想解决的问题。
这一转变使分析师能够从单纯维护产出转向确保产出的完整性,从而腾出精力来处理那些此前无暇顾及的高价值、高影响力的积压问题。
3. 物理人工智能与犯错的代价日益高昂
当大多数人想到物理人工智能时,脑海中浮现的往往是类人机器人。虽然机器人技术正迅速崛起为下一个重要前沿领域,但其关键的突破性进展在于世界模型的开发——这类人工智能系统能够以越来越高的精度理解和模拟现实世界的物理规律及交互动态。 与主要针对文本和图像进行推理的传统大型语言模型(LLMs)和大型视觉模型(VLMs)不同,世界模型在共享的嵌入空间中学习物体、环境、运动及交互动态的联合表示。这些模型是实现物理环境中感知、推理、规划和决策的基础。
多年来,我们一直处于一个数字沙盒环境中,在那里,错误只会导致链接失效或输出错误。而在现实世界中,错误会带来真实的后果。犯错的代价将急剧增加。这就是为什么验证变得至关重要。
推动这一转变的关键因素之一是高保真数字孪生的应用——这是一种合成环境,系统可以在与现实世界交互之前,在此环境中安全地进行训练和测试。但这些系统的性能取决于其构建所依据的数据和假设。Waymo利用谷歌的Genie 3模型模拟现实场景便是极佳的例证,这些场景在现实生活中极难捕捉。虽然这些情况此前可能从未发生过,但未来完全可能出现,因此拥有一个在这些情况下知道如何应对的系统,对于确保安全与可靠性至关重要。
这构筑了一种新型的数据护城河:不仅在于规模,更在于准确性和现实基础。这进一步凸显了深厚领域专业知识的重要性——科学家和工程师必须确保人工智能系统能够真实反映其所运行的现实环境。
随着人工智能日益融入物理世界,人类专业知识的作用非但没有减弱,反而变得愈发关键。因为当系统在现实世界中运作时,信任已不再是可有可无的,而是必不可少的。
4. 体育作为终极验证问题
体育处于物理世界与数字世界的交汇点。
几十年来,体育领域的人工智能主要用于呈现信息——例如图表、赛事摘要和基础数据统计。如今,球迷和球队希望与数据进行互动。这正是通用人工智能难以胜任、而领域专用人工智能变得至关重要的领域。构建体育人工智能并非仅仅应用通用模型(例如大型语言模型或世界模型),它需要对赛事数据、运动规律以及体育语言有深刻的理解。
Stats Perform 的优势源于其在体育领域三大独特基础领域所具备的深厚专业知识:
- 体育领域的“账本”:可靠的体育人工智能依赖于专有、全面且持续更新的数据覆盖,而这些数据在公开网络上并不存在。 构建值得信赖的系统需要对比赛进行完整且深度结构化的呈现——从每秒更新的赛事流到情境化元数据。若缺乏这一扎根于现实的体育“账本”,即便是先进的通用人工智能助手也常会“产生幻觉”,无法准确呈现基本事实,更无法提供可靠的战术洞察。这正是 Stats Perform 的优势所在:它将深度数据覆盖、领域专业知识以及专为体育打造的、扎根于现实的人工智能系统完美结合。
- 体育运动的物理世界模型:要理解体育运动,必须立足于时空坐标系。 在 Stats Perform,我们构建了球场的物理模型——将视频与现实世界的坐标精确对齐。但挑战不仅在于追踪球员,更在于建模他们之间的互动方式。比赛有着其独特的“物理法则”,由移动、空间和战术驱动。这使我们能够考虑遮挡、无球跑动以及隐藏的背景信息,从而生成完整、可靠且可验证的数据。
- 比赛的语言:仅靠原始数据是不够的。体育运动有着自己的语言——它融合了描述性指标(预期进球、预期威胁)、预测模型以及战术背景。我们构建了一套术语体系,使人工智能能够以专家级别的严谨性来描述比赛——既能大规模应用,又让任何人都能轻松理解。
这一基础支撑着我们的三层系统:
- 感知——精准捕捉“什么”、“在哪里”和“谁”。
- 语言——将赛事转化为体育的结构化语言。
- 推理——让用户能够在具体情境中探索、质疑并理解游戏。这一层级支持真正的交互性——既依托于基于我们领域语言运行的通用人工智能模型,也依托于专为深度分析和预测设计的专用模型。
正是这些层级,使得人工智能系统值得信赖。
如果没有扎根于现实的感知和语言,推理就会崩溃。通过将仪表盘转变为验证层,分析师得以在技术栈中向上拓展——从生成输出转向验证输出——从而能够专注于更深入的建模和创新。
这不仅仅是为了开发更高效的工具,而是为了在世界上最重要的领域之一构建一个“真相层”。
对于希望深入了解的读者,我已在下方附上了我在 NVIDIA GTC 和 Opta 论坛上相关演讲的链接。
英伟达GTC会议 Opta Forum 会议







