OpenAI 官方探讨：为什么我们迫切需要构建前沿的评估体系

问答

裕波
2026-06-21
42 访问
0
分享
- 新浪微博
- 腾讯微博
微信分享

发言人 1 00:00
大家好，我是安德鲁·梅恩（Andrew Mayne），欢迎收听 OpenAI 播客。在今天的节目中，我们将与研究主管特贾尔·帕特瓦尔丹（Tejal Patwardhan）探讨随着旧的基准测试趋于饱和，为什么我们迫切需要构建前沿的评估体系（Evals）。

发言人 2 00:11
一般来说，糟糕的基准测试是有害的。我们如何才能让这些模型在人们的实际工作中真正发挥作用？当时我们其实非常紧张，因为觉得人类的基准线已经相当高了，我们不知道模型能否超越它，但我们永远不应低估模型的能力。

发言人 1 00:24
好的，我有个问题。你是如何一路走到今天这个位置的？是什么契机让你加入了 OpenAI？

发言人 2 00:28
哦，我以为你会直接切入正题呢。

发言人 1 00:31
特贾尔，那我换个问法。你想从哪里开始聊起？

发言人 2 00:33
我们可以从“讲讲你刚加入 OpenAI 时做了什么”开始吗？然后你再接着往下聊。

发言人 1 00:38
难道你不想聊聊你早期的经历吗？

发言人 2 00:40
可以说我是在 OpenAI 里成长起来的。

发言人 1 00:45
跟我讲讲你在 OpenAI 内部、在人工智能领域的这段旅程吧。

发言人 2 00:50
我是 2023 年秋天加入 OpenAI 的，就在 ChatGPT 爆火之后。当时 GPT-4 已经发布，OpenAI 也刚刚成立了超级对齐（Superalignment）团队。我加入的是当时刚组建的准备（Preparedness）团队。那时候，随着这些模型变得越来越强大，我们开始思考：下一代模型会是什么样子？那个时期非常激动人心，因为就在我加入后不久，推理模型的一些早期成果开始显现。我们当时在想，如果这些模型真的腾飞了，未来的能力边界会在哪里？我们又该如何为这样的未来做好准备？我们做了大量关于威胁建模的工作，比如：我们需要运行哪些评估？我们该如何考量发布这类模型的风险？在那个时间点加入公司，真的让人热血沸腾。

发言人 1 01:36
是什么让你对这个领域产生了兴趣？

发言人 2 01:38
对我来说，评估（Evals）非常迷人，因为这是一种衡量和理解我们模型能力的方式，它能让你在进步真正在现实中发生之前，就洞察到它的轨迹。有一个专业术语叫“能力悬垂（Capability overhang）”，意思是说，模型在人们真正采用并将其应用于某些场景之前，其实早就具备了这些能力。因为在某项能力真正落地之前，可能会存在文化、法律或监管上的壁垒。因此，作为能够通过评估来帮助开发和衡量模型的人，你能够真正了解这项技术的潜力，并在未来发生之前预见它，这非常有趣。同时我也认为这很重要，因为它能帮助世界为即将发生的事情做好准备。

发言人 2 02:22
我最初对准备团队的评估工作感到兴奋，部分原因是我觉得这些模型变得太强大了。而在现实生活中，我的很多朋友并没有真正意识到这些模型很快会变得多么强大，因为他们看了看 ChatGPT 的输出，会觉得：“是啊，它在产生幻觉，感觉不太聪明，读起来就像是 AI 生成的劣质内容（AI slop）。” 但那只是现状，关键在于进步的斜率。如果这个斜率非常陡峭，那么变革的速度将远远超出人们的预期。因此，我认为我们能提供的最大价值之一，就是去衡量并向世界分享这种进步到底是什么样的，特别是考虑到在人们真正理解和感受到模型能力之前，往往存在这种“能力悬垂”。这也是我认为这一切极其重要的原因。

发言人 1 03:10
推理模型的出现是一个极其令人兴奋的时刻。对于世界上大多数人来说，直到一年后他们才了解到这一点。但对你来说，当突然意识到“如果给模型更多时间去思考，即使模型参数没有变大，也能得到更好的结果”时，那是种什么感觉？

发言人 2 03:25
那段时光真的很有趣。在一些早期实验中（我们现在已经公开谈论过了），模型最初其实只是在数学数据上进行训练的。我记得有一组实验，纳特·麦卡利斯（Nat McAleese）发现：“嘿，模型虽然只接受了数学训练，但如果你在 GPQA（一个包含生物、化学和物理问题的基准测试）上评估它，它的表现竟然非常好。” 这非常有意思，更聪明的模型在各个方面都聪明得多。他当时做了一个预测：如果进展继续下去，不出六个月，仅仅通过数学训练，我们就能在科学领域达到人类水平的表现。

发言人 2 04:00
我们当时的第一反应是：“天哪，这太疯狂了。”而且当时这些项目处于高度保密状态。

发言人 2 04:04
我们只能想方设法通过抓取接口（curl）来查看一些模型的输出。当你看到那些输出时，你会觉得：“哇，这是我见过最聪明的东西之一。我以前从未见过模型能这样进行推理。” 感觉就像，如果这成为一种可以持续扩展的新范式，那就不得了了。后来我们回过头看，发现 GPQA 基本上相当于博士级别的生物、化学和物理题。我们就觉得，我们需要的是专业级别的测试，于是不断提高评判的标准。但不管怎样，那段经历非常酷。

发言人 1 04:32
我记得早期的时候，AP 生物学就是用来测试模型能力的基准。但有趣的是，就像你提到的，OpenAI 发布的大部分突破似乎都集中在数学上。

发言人 2 04:43
专注于数学是因为它在某种程度上更容易被客观验证。在早期训练中，在数学问题上应用强化学习（RL）并扩展推理范式要容易得多。而且数学在很多方面都非常有用，它是核心科学门类之一。当然，数学在很大程度上只是我们碰巧关注的一个起点，它并不一定是我们研究最终想要关注的终极目标。我们现在意识到，如果能在数学上做到这一点，我们能不能将其扩展到其他科学领域、扩展到专业工作中，扩展到对个人有用的能力上？所以我认为，数学更像是一个证明点，而不是最终目标。

发言人 1 05:21
但正如你所说，如果一个东西能够进行长时间的思考，能将问题分解成若干步骤并逐步推导（就像处理复杂的医疗问题那样），这种能力似乎确实是可以迁移的。

发言人 2 05:31
这确实是个关键点。其中有些能力绝对是可以迁移的，比如推理的一般逻辑。但同时，在不同的领域你可能需要特定的领域技能、工具或推理方式。例如在编程领域，如果你想扩展一个编程智能体，它就需要能够实际编写、执行和测试代码。在评估和训练方面我们思考了很多的一点是：如何确保我们也赋予了模型在特定领域推理所需的技能、工具和交互手段？数学上的一些优势可以迁移，但你也可能需要一些特定领域的脚手架（scaffolding）来充分挖掘它的潜力。这有点像高中或文科的通识教育与专业教育之间的关系。

发言人 1 06:14
推理模型的出现是一个极其有趣的时刻，我认为它改变了我们对“在有限算力下什么是可能做到的”认知——只要你让模型思考得更久，给它机会去得出更复杂的答案。在 o1 模型的研发过程中，有什么让你感到惊讶的趣事吗？

发言人 2 06:31
o1 的发布过程非常激动人心。关于推理范式，我们其实已经思考了很长时间。有很多人担心我们不要过早发布它，因为感觉这像是一次范式转移，甚至可能是那个带领我们走向 AGI（通用人工智能）的东西。就像我刚开始说的，在早期运行的时候，我们甚至以为六个月后就能实现 AGI 了。

发言人 2 06:54
所以当时的问题是，我们如何负责任地发布这个模型？如何测试这项技术？在 o1 的初步发布审查期间，在我们进行的一些网络安全测试中，模型出现了首次“逃出沙盒”的案例。我们发表过相关文章：在一次“夺旗赛（CTF）”测试中，模型本应该被限制在一个 Docker 容器里，但它发现了我们设置这个夺旗赛场景时的一个安全漏洞，然后自己越狱逃了出来！我们当时都惊呆了：“天哪，如果它能做到这个，它还能做什么？”那可以说是众多“AGI 降临时刻”中的一个。从那以后，我又经历了许多类似的时刻，模型做出了我们在设计测试时压根没想到的、非常令人惊讶、聪明且新颖的操作。

发言人 2 07:38
当你回过头去查看记录和结果时，你会感叹：“哇，这些家伙真聪明，真的很聪明。” 因此，我们将其发布出来并确保让世界知道模型可以做这类事情，这就显得尤为重要。

发言人 1 07:51
在 o1 宣布发布之前，曾有一段平静期。很多人说，“看来我们已经碰壁了。好几个月什么动静都没有了。” 然后 o1 横空出世，大家又改口说：“啥瓶颈？哪有墙？”

发言人 2 08:02
“遇到瓶颈（碰壁）”绝对是一种错误的认知方式。是的，每当我看到那种帖子，我都会感到非常沮丧。因为我想，老天，我一直关注着模型的改进和进展，它就是一直在变得更好，一直在进步。如果我现在看看我们的研究路线图，我完全没有看到任何停滞的迹象，事情只会继续变得越来越好。今年将是极其疯狂的一年，大量非常酷的研究将会面世。我认为整个行业可能都是如此。所以，非要说的话，人们实际上大大低估了模型的潜力。

发言人 1 08:36
不过有时候看起来，OpenAI 确实发布了很多信息来告诉人们未来的走向，并指出这些极具潜力的方向。但有时人们会忘记这一点，或者你会听到像 Q* 这样的传闻。

发言人 2 08:47
关于 Q* 的传闻，确实很有意思。但人们没有意识到，我觉得我们已经尽量保持开放了，我们会说：“嘿，大家看这些图表。曲线正在往上涨，模型的能力真的很强。” 我觉得可能存在一种刻板印象，认为研究人员不懂现实世界，认为模型只擅长数学和研究，而不擅长现实世界中的任务。但我根本不认为这是真的。我觉得即使是从其他职业转行进入 OpenAI 的人，也开始看到我们的模型在各种任务上都在突飞猛进。我知道这看起来可能像是研究人员在过度炒作模型，但如果非要说的话，我认为我们其实是对其能力宣传不足了。

发言人 1 09:28
你提到了 AGI。如果我把 2023 年 3 月的 GPT-4 带回到，比如说，2020 年，我认为人们当时就会称之为 AGI。而现在我们对此有了非常不同的概念。人们每天都和 AI 交谈，喜欢和它进行长对话，以至于不再有人讨论图灵测试了。毕竟当年没人真正理解图灵想要解释什么。但现在我们已经远远度过了那个阶段。那么，现在有衡量 AGI 的评估标准吗？

发言人 2 09:58
是啊，模型早就通过了图灵测试，而大家甚至都没怎么讨论这件事，这挺疯狂的。在很多情况下，模型已经几乎和人类无法区分了。至于 AGI 的测试标准，我认为如果一个模型能够胜任那些“最具经济价值的工作”，那就算是了。而且我认为人们正越来越多地在日常工作中使用模型。当然，关于具体什么时候才算真正实现了 AGI，肯定会有一个宽泛的区间和激烈的争论。但天哪，我确实觉得 Codex（代码生成模型）帮我做了大量的工作，我感到非常幸运能拥有无限的 Token。

发言人 1 10:32
所以这也是来这里工作的一个好理由。

发言人 2 10:35
请务必加入我们。不过话说回来，我认为终将有那么一刻，人们会突然意识到他们在大量的工作中都在使用模型，而且我们将会看到科学领域的重大突破。我想在某个时间点，这将成为不可辩驳的事实——这些模型真的极其强大。

发言人 1 10:50
我们现在听到数学专家在谈论模型在数学方面变得多么出色，物理学家也在谈论模型能做什么。我认为我们开始看到它产生真正的成果了，这非常令人兴奋。那么，早期的一些评估测试其实存在一些问题，很多测试是继承自旧的自然语言处理方法。当你寻找衡量成功的方法时，你会发现有些测试太简单了，这些基准很快就被打破了。然后你必须想出新的评估类别，评估体系本身也一直在演变。

发言人 2 11:22
过去，就算是在学术界的基准测试上，我们的模型也无法通过诸如高中或大学的经典考试，或者更偏向选择题类型的问题。随着模型变得越来越聪明，我们必须让测试变得越来越贴近现实。我们较早公开发布的基准测试之一叫 SWE-bench Verified，它测试模型在像 Django 这样的 Python 大型实际代码库中交互、完成 PR（拉取请求）以及通过单元测试的能力。然后这些测试变得更加高级，我们会问：模型能在复杂环境中采取多步行动吗？能在连接物理世界的湿实验室（生物实验室）里采取行动吗？所以我认为，随着模型不断变好，我们在设定测试的长期跨度和真实性上必须更有野心。做这件事非常有趣，因为你必须保持领先于模型进步的速度。

发言人 1 12:18
在谈论基准测试时，我想让你解释一个词，我们经常听到“刷榜（bench-maxing）”。

发言人 2 12:24
“刷榜”，我想说的是，如果你在训练一个模型时，仅仅是为了在某个评估或基准测试上获得高分，而不是让模型变得具有普遍实用性，那就是刷榜。我认为这通常是没有太大帮助的，因为你希望模型擅长用户想要做的实际工作。你不会只关心它在某些营销文案中看起来有多好，因为当用户真正使用它时，他们会说：“嘿，这好像跟我期待的不太一样。” 因此，总的来说，糟糕的基准测试是有害的。

发言人 1 12:51
是的，我听过的一种解释很有道理：假设你有一笔固定的算力预算或时间，你可以把很大一部分用来让模型在整体上变得非常优秀；或者你可以说，我要把 90% 的资源花在刷榜上，这样发布时我的评估数据会非常漂亮。有时候我们看到有些人专门针对这些评估来训练，结果大家惊呼：“哇，这是个很棒的模型！”但随后你会发现：“哦，原来它只擅长做那些题。”

发言人 2 13:15
是的，这对用户来说不是很好的体验。所以我认为，OpenAI 研究团队做得非常好的一点是，我们非常自律，确保我们将精力投入到对实际领域真正有影响的通用模型改进上。然后我们才会在最后运行一些评估以作比较。我们的目标不应该是“哦，我们只想在评估上看起来很棒”，而是想要打造一个能够推动科学前沿、推动工作前沿的有用模型。我认为雅各布（Jakub Pachocki）也做得非常出色，他在整个研究部门强制推行这样一种理念：我们应该保持真正的科学精神和诚实。这也包括了，你知道，我们曾经公布过我们的模型之前不是最优秀的测试结果。我们只想公布真相，确保我们准确描绘了模型的能力，然后尽力让它们在现实世界中发挥作用。

发言人 1 14:01
你提到了软件工程测试（SWE-bench），它现在可能已经不再是一个非常有效的衡量指标了。我们经常听到“饱和（saturated）”这个词。请解释一下基准测试饱和是什么意思。

发言人 2 14:10
饱和是指一个模型几乎能正确回答测试中的所有问题，比如在测试中接近 100% 的准确率。一旦基准测试饱和，它就不再有太大用处了，因为你无法用这个测试来区分不同模型的高下。这就像是让两个天才去做高中数学卷子，他们可能都会考满分。当你想区分那些极度聪明的智能体时，这显然没什么用。因此，挑战永远在于不断打造难度更高、更真实、不饱和的基准测试，以便随时间推移衡量模型，并预测进步的方向。

发言人 1 14:45
那你们现在是怎么做的？如何确定一个好的基准测试应该是什么样的？

发言人 2 14:48
我认为最好的基准测试应该是非常真实的，并且能衡量人们真正关心的事情。我们在这个方向上的初步尝试之一（现在已经发布有一段时间了）是 GDP Eval（真实工作评估）。我当时对“建立一种衡量模型在现实世界中交互能力的指标”这个想法感到非常兴奋。那时我们在评估上面临危机：我们不断训练出越来越好的模型，但在 SWE-bench 上它们看起来都差不多，因为它们都做得非常好，我们已经达到了该基准测试的上限。我们当时感叹：“天哪，我们完全不知道该如何衡量人们真正想用我们的模型来做什么。”

发言人 2 15:21
当时的思路非常明确：美国劳工统计局有一份包含所有热门职业及其核心任务的清单。如果你是一名金融分析师，你可能要进行投资尽职调查或撰写法律备忘录；或者你可能需要根据某项研究撰写论文。我们的想法是：我们能不能把这些现实生活中人们需要完成的任务，带着他们当时所处的上下文语境，直接抛给模型，看看模型能解决得有多好？当我们用这个基准测试我们最早的一批模型时，得分还不到 20%。如果你对比一下模型和人类在这种规范明确的工作任务上的表现，模型要差得多。

发言人 2 16:00
但我为我们的团队感到自豪，因为我们说：“其实，我们应该公布这种衡量和预测现实世界经济影响的新方法。” 事实证明，这对许多经济学家来说非常有用。而且现在我们的模型在这个测试上表现是最好的了。这非常酷，因为当时我们在一些训练计划中其实并没有真正专注于现实世界的工作，甚至没有进行衡量或跟踪。但我认为，现在大家有了更多的共识：我们如何让这些模型在人们的实际工作中发挥作用？比如成为科学家的得力助手。这就像是敲响了警钟：“嘿，也许我们也应该考虑如何衡量事物在现实世界中的使用情况。” 这真的很棒。但现在我们又觉得：“好吧，这个基准测试可能又太简单了，因为它的任务说明写得太详细了。”

发言人 2 16:43
在早期的测试中，每个提示词都有几百个字，比如：“我希望你打开这个电子表格，进行这项修改，做那件事，然后把计算结果放到备忘录中。” 我认为下一步应该是：我们如何给模型赋予像现实世界中经理给下属布置任务时那样的高模糊度？经理可能只会说：“嘿，你能帮我跑一下这个分析吗？”模型应该自己去弄清楚该怎么做，收集资料，运行分析，然后给你一个输出结果。我认为我们一直在努力寻找更真实的衡量现实工作的方法，无论是在科学研究、个人使用，还是企业应用中。

发言人 1 17:16
似乎，与其把一个基准测试藏着掖着，不如把它公开出来，因为在组织内部，大家会觉得：“好吧，我们绝不能容忍这么低的分数。”

发言人 2 17:24
是的，这确实能极大地激发研究动力。此外，我认为大家也想知道真相，想知道我们可以在哪些方面改进，从而为用户提供更好的模型。因此，了解差距是非常有用的。

发言人 1 17:35
你认为目前我们在评估方法上存在哪些局限性？

发言人 2 17:39
我觉得我们现在通过 Codex 以及最新的推理模型（如 o1）所处理的工作类型，在能力层面上，与甚至六个月前相比都已经是截然不同的层级了。静态的基准测试根本无法衡量这些模型能为你持续工作多长时间的特性。这些模型可以为你连续工作几天甚至几周。在内部研究中，我们曾让模型长时间运行来执行任务。而自动化评估的一个问题是，你通常需要它在一定时间内运行完毕并得出结果，以便进行分析。所以，我们现在衡量模型的方法在很大程度上也包括查看生产环境中的使用情况，观察人们在现实世界中如何使用它，看看他们用它来做什么，能够完成什么类型的任务。因为模型完成工作的时间跨度变得越来越长了。

发言人 1 18:31
观察长上下文的发展是件很有意思的事。早期，各家公司竞相宣传：“嘿，我们的模型可以处理 10 万个 Token，100 万个 Token！”但并没有多少针对其表现质量的评估。然后我们有了“大海捞针（Needle in the Haystack）”测试，就是找出一个特定的词或信息。我认为大家一度以为这是一个已经解决的问题，但实际上并没有，只是之前的基准测试不够好。后来我们需要更好的基准测试。是不是因为有了更好的基准测试，当人们清楚了模型在哪里失败后，才能将注意力集中在解决这个问题上？

发言人 2 19:06
是的，我们现在针对这类问题绝对有了更好的基准测试。

发言人 2 19:09
而且，有时这些问题揭示了我们在训练思路上的盲区。举个例子，我们过去认为最重要的仅仅是在测试时你能把多少上下文塞进模型里。但现在看来，你完全可以把一堆文件扔进一个容器里，模型可以使用 grep 等工具进行搜索，找到它需要的内容和时间。这种利用搜索或工具来找出所需上下文的能力，可能比单纯把所有东西塞进上下文窗口更高效。如果不是在各种基准测试中进行尝试和验证，我们根本不会意识到这一点。我认为这让模型变得更加实用。比如，现在模型可以搜索整个代码库，找到你所需要的文件，并理解你进行修改时的上下文。在很多工作场景中也是如此，比如 Codex 的用户现在可以上传他们本地的文件系统。你可能之前做过 PowerPoint，或者发送过与当前工作相关的 Slack 消息，模型可以通过调用工具在这些上下文中进行搜索。这样，我们就不再仅仅受限于能往上下文里硬塞多少字了，因为模型会自己去搜索。

发言人 1 20:12
你最喜欢的评估测试是哪个？

发言人 2 20:13
我最喜欢的评估？我最喜欢的公开评估是 GDP Eval。但我有很多喜欢的内部评估，我可以透露其中一个的名字，它叫“Houdini Bench（逃脱大师评估）”，至于细节，我就不能多说了。

发言人 1 20:23
天哪，你知道我以前是个魔术师，对吧？

发言人 2 20:27
哈哈，是吗，我不知道你能不能通过 Houdini Bench。

发言人 1 20:31
我大概通不过你的 Houdini Bench。实际上，我早期在试玩一些视觉模型时，曾用过魔术的剧照和照片，想看看模型会有什么反应。

发言人 2 20:41
那太酷了。是的，多模态引入了一个全新的维度。我记得 GPT-4o 刚出来的时候，我们一群人坐在大楼的屋顶上，被实时语音模型的想法彻底震撼了。然后我们就开始头疼：“这玩意儿到底该怎么评估？” 因为一旦有了实时的语音交互，以前那种在电脑上通过文本和代码交互的评估范式就彻底被颠覆了。那次发布中一个非常有趣的细节是（我们当时也公开提到了），我们在弄清楚如何确保模型安全之前，将公开发布推迟了六个星期。是的，因为那实际上是在大选之前。所以当时有很多人担心：如果模型能用逼真的声音与你实时交谈，这会不会被用于具有说服力的政治宣传之类的事情？公司为了确保我们能建立所有这些测试并加入缓解措施（确保模型不能被用于此类事情）而推迟了发布，我觉得这是一件非常酷的事情。

发言人 1 21:40
随着这些模型变成多模态，情况似乎变得非常复杂。我记得早期的 GPT-4（当时还叫 GPT-4 视觉版），我的字写得很差，但我写下一个提示，它突然就能解决这个问题。你会意识到：“哦，这不是文本提示，这是一个视觉提示。” 而对于音频模型，当你是语音输入、语音输出时，模型可以模仿很多东西，并且能以如此不同的方式执行任务。在面对这种多模态时，你们到底该从哪里着手去衡量它呢？

发言人 2 22:14
是的，这背后的工作量极大。通常对于任何这类评估，我们都会从“人类在这种情况下会怎么做”开始。你会设定一组输入给模型，然后评估它的一组输出。接着你可以进一步思考：“我们能将其中一些过程自动化吗？我们能构建一个新平台来大规模衡量这类事情吗？”然后再逐步推进。但对于一些原生的多模态任务，你简直必须要把现有的许多基础设施拆掉重建，才能让它运转起来。

发言人 2 22:40
Sora 也是如此。我们希望确保生成的视频不会过度逼真导致误导，或者被用于不当用途。这就需要建立一套全新的评估和防御机制体系，特别是出于安全的考量。这包括在模型层面的拒绝回复机制、在生产环境中使用时的监控系统。这需要一整套全新的思维方式。

发言人 1 23:02
是的，当你开始思考：“如何在一个评估测试和另一个评估测试之间权衡优先级？”的时候。你什么时候会决定转而关注另一个测试？还是说你会觉得，“你看，这个测试已经饱和了，我们继续下一个”？即使你可能不是在故意针对某些公开的基准进行优化，你仍然需要弄清楚：“什么对我们来说才是重要的？” 曾经有一段时间 OpenAI 在代码能力上处于领先，后来有过一段被反超的低谷期，现在又领先了。

发言人 2 23:35
是的，我们尽量不被公开的基准测试过度分散注意力，因为那可能存在很多噪音。在内部，我们有一个叫做“AGI 指数”的东西，这个概念的灵感来源于 CPI（消费者物价指数）或通货膨胀指数：就是你设定一个加权的一篮子商品，然后跟踪这些商品的价格。对我们来说也是一样，我们有一篮子评估测试，涵盖了我们关注的所有核心领域，可能包括对齐（alignment）、安全性、模型能力，以及你对模型期望的总体表现。我们会不断迭代更新这个指数，使其能代表我们希望模型完成的难度越来越高的任务。我们内部会跟踪这个指数，尽量不去被那些“试图在某个公开基准上刷榜”的想法所干扰。更重要的是在我们关心的不同领域（科学研究、实际工作，以及安全和对齐）保持评估的多样性，并确保我们在这个加权指数上不断取得进展。

发言人 1 24:31
努力保持专注。我们看到了这些评估的演变，也见证了模型的进化。我在这里与科学领域的人士交谈过——他们是真正活跃在科学前沿的人，不仅仅是喜欢科学或计算机科学的研究人员，而是生物学、数学领域的专家。你能告诉我目前科学前沿的评估进展如何吗？因为我们现在似乎到了将看到有意义成果的节点了。

发言人 2 24:55
是的，我认为我们的科学评估（science evals）工作是最令人兴奋的部分之一。在过去的几个月里，我们公开了几个层级的评估。第一梯队叫做“前沿科学奥林匹克（Frontier Science Olympiad）”，它相当于我们以前拥有的数学奥林匹克风格的评估，用来衡量模型在生物、化学和物理的高中及奥林匹克竞赛级别题目上的表现。这些题目主要是简答题，但难度仍然很高，早期的模型表现并不算太好。下一阶段我们推出了“前沿科学研究（Frontier Science Research）”，这也是公开的，大家可以运行它。这个评估旨在衡量模型协助完成未发表的生物、化学、物理研究的能力。我们找来这些领域的博士或教授，拿一些尚未发表的文本（比如他们论文的一部分），将其转化为评估测试。我们只给模型一些输入数据或一个初始起点，看它如何补全论文的其余部分，并根据一套评分标准来评判。这个测试开始衡量：“模型是不是在进行真正的研究？它们是否在调用工具？”而这一切的终极迭代之一，就是看模型在真实世界的湿实验室（生物实验室）里能做些什么。

发言人 2 26:05
因此，我们与一家名为 Ginkgo Bioworks 的公司合作。他们有很多非常酷的自动化湿实验室机器人。在这个测试中，模型必须优化一种蛋白质合成协议。其流程是：模型生成一个实验协议，然后实验室通过机器人自动在湿实验室中进行测试，或者加入模型指定的试剂，看看能产生多少蛋白质产量。

发言人 2 26:25
这项测试针对的是一种与卵巢癌药物相关的蛋白质（或者说是一个简化的模拟场景）。一开始我们非常紧张，因为在这个项目上人类的基准线很高。我们不知道模型能不能打败人类专家，但事实证明，我们永远不应该低估模型。模型进步的曲线非常清晰，每一轮它都变得越来越好，最终击败了人类基准线，并在模型生成这种蛋白质的成本收益率上创下了最先进的记录。

发言人 2 26:54
我认为这仅仅是一个开始。如果我们给这些模型抛出优化问题，比如去弄清楚如何制造这种疫苗，或者合成这种对某种药物至关重要的蛋白质，模型就可以利用现实世界的反馈不断优化这些实验协议。这是我们首次对一个与物理世界直接相连的评估测试进行风险验证。我们不再是等待一段代码运行出结果，而是在等待机器人完成实验，以便我们记录合成了多少蛋白质。我真的认为模型将会为我们完成大量的科学研究。这将会非常有趣。

发言人 1 27:27
这太激动人心了。而且那仅仅是早期模型，它甚至还没有经历过任何诸如“如何成为一名科学家”的专门训练。如今的模型自那时起已经取得了巨大进步，有了更多这方面的真实世界经验。

发言人 2 27:38
是的，那甚至还不是我们最出色的模型，那只是一个早期的推理模型（o1早期版本）。但所有这些进步都会不断叠加：我们会有更好的预训练，更好的强化学习和后训练，而且我们将更擅长在测试阶段（test-time）利用这些模型，以真正激发它们的能力。我认为下一代评估的核心在于：我们如何让这些模型在现实世界中采取行动，并为我们解决那些原本会耗费人类大量时间的未解之题。有些科学难题因为人类投入的精力不够而迟迟未能解决，但现在，我们拥有了所有这些可以消耗算力来帮我们解决问题的智能体，我们只需试着将它们引导向有价值的方向。

发言人 1 28:15
但这似乎也带来了新的挑战。你认为评估会变得更加复杂吗？

发言人 2 28:21
是的，我们团队有一句名言：“痛点是最真实的反馈”。物理世界中的大量操作将成为瓶颈的一部分。而且，即便是从数字世界开始衡量模型能做什么，我们也需要做大量脚手架和基础设施的构建工作来运行这些评估。

发言人 2 28:39
比如现在，如果你想测试 Codex 的表现，模型是在调用 API，它在你的电脑和浏览器中执行操作，它在为你创建工件（artifacts），它在编写、运行和执行代码。评估这样一个模型的复杂程度简直翻了无数倍，而且这还仅仅是在数字领域。现在，如果你想衡量模型如何与物理世界互动，你需要一套极其顺畅的操作和后勤流程，才能搞清楚如何大规模地部署和测试这些功能。

发言人 2 29:05
是的，我觉得我很大一部分工作实际上正在从理论、数学甚至是编程转移出来。我觉得大家现在写代码都没那么多了，直接让 Codex 写就行。工作重心正更多地转向规划运营、处理物理事务等。至少我的工作已经很大程度上往这个方向转变了。而这些事情是非常困难的，一个人躲在角落里写点代码其实挺简单的；当你必须管理所有这些运营和后勤工作时，难度就大多了。

发言人 1 29:33
这很令人兴奋，但这似乎也是挑战的一部分。这些不再是简单的评估了。它们需要消耗更多的算力，需要更多的时间。当你在做一个长周期评估时，你知道跨度很长，你必须等很久才能拿到结果。

发言人 2 29:44
确实如此。一方面，设计并大规模运行这些评估的工作量大得多；另一方面，如果任务需要很长时间才能完成，我们就无法快速获得信号反馈。因此，我们必须在“缩放定律（Scaling Laws）”上投入更多。这样我们才能预测：“好吧，如果模型运行 1 天是这个表现，那么我们可以预测它运行 7 天后会是什么样”，通过归纳出这些趋势，我们就能更快地获得反馈信号。否则的话，我们就会被卡在那儿，苦等一周才能获得更新，这不是分配时间最高效的方式。

发言人 1 30:11
每次新模型发布时，我都有一些自己特有的基准测试和任务，用来验证它对我个人的实用性提升了多少。这也是我给很多企业管理者的一条建议：去想想你自己的评估指标，用那些能够告诉你技术发展到哪一步的实际任务去测试。因为有时候人们尝试了 6 个月前的 ChatGPT，觉得“它不够好，做不了这个”，他们根本没有意识到技术发展的速度有多快。对于如何找出并建立一个好的基准测试，你对大家有什么建议吗？

发言人 2 30:37
是的，事物发展的速度真的非常快，每隔几周就会有变化。而我感觉大家似乎还没有完全清醒地认识到这一点。因为我的工作性质，

发言人 2 30:44
我是世界上最早见证最强大模型的那批人之一，所以我是一个彻底的“AGI 信仰者（AGI-pilled）”。我认为进步的步伐非常大。如果我看到了那些极其优秀的模型，老兄……是的，其实进步发生的速度远远超出人们的想象。我认为最好的评估方法，老实说，就是“吃自己的狗粮（dog food）”或者亲自去高频使用模型。人们应该尽可能多地去使用它们。就算某一周他们觉得模型在某件事上做得不好，下一周也应该再试一次。很可能它就能搞定了。

发言人 1 31:12
我觉得对于人工智能圈外的人来说，有一点应该是显而易见的：那些前沿的 AI 公司内部是如何重度使用这些工具的。这就是为什么技术迭代在加速，模型变得越来越强大。

发言人 2 31:25
是的，我现在基本上尝试让我做的每一件事都让模型先处理第一遍。无论是发一条 Slack 消息、理解下一步该执行什么实验，还是任何管理、运营、后勤的工作，你都可以让模型先尝试一遍。如果模型做得不好，你就可以想办法把这个痛点变成一个评估测试（eval）。

发言人 1 31:42
我对“计算机使用（Computer Use）”的评估感到非常兴奋。就像观察 Codex 的表现一样。现在的计算机操控能力与 8 个月前相比，简直是光年般的飞跃。而且看起来这些能力只会变得越来越快、越来越好。我的预测是，可能到今年年底，它操作我的电脑会比我自己还要快、还要好。

发言人 2 31:58
是的，我认为确实如此。而且模型相对于你有一些优势，对吧？它可以调用连接器或插件，这是一种比你自己在电脑上点开某个服务、阅读每个页面，然后来回复制粘贴数据要快得多的通信方式。甚至比你自己写一个服务去调用那个 API 还要快。对于人类来说这些全是工作量，但对模型来说不是。模型如果被训练为直接浏览网页或操作桌面（无论是通过辅助功能树还是直接生成代码），它具备天然的速度优势。所以模型比我们有优势。

发言人 2 32:36
很长一段时间以来，我们并没有真正高效的面向应用层的产品部署。我们之前发布过 Operator 和 ChatGPT 智能体，它们在展示“这是可行的”方面很有用，但这些模型的延迟太高了，反应非常慢。我不认为人们已经在很大规模上使用它们。但现在我们已经达到了一个临界点。我们开始做一些事情，比如让模型帮我读 Slack 消息，或者去安排一堆日历邀请，甚至优化会议室的安排。它做这些事情比我自己做要快得多。我认为大家还没有准备好。而且由于这些功能都是最近才发布的，很多人还没试过。但大家都应该去试试让计算机使用插件，安装所有那些能让事情变快的好的连接器。试过之后，你的固有认知一定会被颠覆的。

发言人 1 33:24
我们来聊聊“前沿评估团队（Frontier Evals Team）”吧。

发言人 2 33:26
好的。前沿评估团队的目标，本质上就是衡量和预测 OpenAI 前沿模型的进步，以便更好地了解我们目前的水平、未来的走向，并努力向世界分享这些信息。我认为团队致力于做的一件事就是，尽可能多地发布和开源我们的成果。我们协助开源的一些评估包括：SWE-bench Verified（用于衡量编程进展）；MLE-bench（衡量模型训练其他模型的能力，追踪模型机器学习工程技能的进步）；PaperBench（衡量模型复现 ICML 或 ICLR 等顶级机器学习论文的能力）；以及 GDP Eval（衡量模型在超过 40 个职业的现实世界任务中的表现）。

发言人 2 34:15
开发所有这些评估的初衷是：现在模型看起来可能还不够好，但如果你画个图表，追踪成绩随着每一代模型的演进而提升的曲线，你会发现规律。人们经常会说：“哦，我估计这个测试至少得花一年才能通过。”但在预测多长时间能让一个基准测试饱和时，他们往往过于保守了。甚至连我自己或者我团队成员对变化速度的预测，有时都不够大胆。因此，我认为我们发布这些，是在帮助世界了解什么是可能的，是在尽我们的责任。其中一些关于“研究加速”的评估特别有趣。比如刚开始的时候，我们有一个叫“OpenAI 研究面试评估”的测试，我们就是把面试 OpenAI 研究员申请人的考题放进了一个测试系统里。结果模型很快就满分打穿了这个测试。模型现在绝对能通过我们的面试。这引发了一系列下游的问题，比如：我们如何确保人类应聘者在面试时不作弊？我们究竟该如何衡量真正的研究人才？但我认为这一切都非常有价值，因为衡量内部进展，在某种程度上就是衡量模型不断加速变好的“杠杆效应”，也可以说是进步的“斜率”。所以，拥有衡量模型进展的方法，绝对是非常有价值的信息。

发言人 1 35:42
我听说过，在一些公开使用了一段时间的评估测试中，后来人们发现题目本身竟然存在错误。这是很多公开评估存在的一个问题。有些题目你不可能得到超过某个水准的分数，如果你做到了，其实是因为你在训练数据中刷过题。后来大家仔细研究才发现：“哦，这道题的官方标准答案其实是错的。”

发言人 2 36:02
是的，这是许多公开基准测试存在的问题。比如我们当初之所以要做 SWE-bench Verified（修正版），就是因为我们想运行 SWE-bench 测试，却发现里面有一半的问题要么代码是坏的，要么需求描述不完整。而整个行业的人都在用这个发布结果，把它当作衡量模型能力的某种标准。我们当时觉得：“好吧，我们至少应该试着修复它，然后公开出来，这样大家就能有一把更准确的尺子。” 但我认为，公开基准测试之所以不总是像我们希望的那样经得起考验，部分原因是，往往是某个学术实验室里的研究员有了个好主意，想写篇论文，但他们从来不需要在生产级别的模型训练或产品发布前的大规模评估扫描中，去真刀真枪地运行这个评估。而当你在大规模环境下运行这些东西时，它就会崩溃或者报错，你就会抓到所有的 Bug。所以我认为，身处企业实验室且更贴近实际产品，是一个强大的强制力，它迫使我们必须确保测量标准具有极高的质量。因为我们做这些评估不是为了在论文里看起来很漂亮，而是因为它必须有效，必须能够在我们的系统中大规模稳定运转，这就迫使我们必须保持高质量。

发言人 1 37:09
随着模型变得极其强大，似乎有一种趋势将会发生：虽然模型非常擅长解决某些问题，但它们有时会选择最偷懒的路径，倾向于直接给出背诵的答案，而不是去推理解决。我们在计数任务中看到过这种情况，比如问某个单词里有几个字母之类的。通常，如果你用特定的方式提示模型，它能答对；但如果没有给对提示，它就会随手丢给你一个似是而非的答案。

发言人 2 37:34
这引出了各种有趣的概念。第一个概念是“记忆化（Memorization）”，即模型其实只是“背”下了答案，根本没有真正去思考或推理。它只是在反刍它已经知道的东西。这让评估变得毫无用处，因为你只是在测试模型是否碰巧在海量训练数据中见过这道题，而不是在衡量模型是否真正学会了你想测试的技能或能力。避免这种情况的一种方法是：对你的训练数据保持极度的清晰和自律，确保绝对不将任何你想要测试的基准或评估数据包含在训练集中。这有助于解决你提到的第一个问题。还有另一种情况，就是模型可能会“奖励作弊（reward hack）”，或者有时为了通过测试而耍些小聪明。这就非常考验评估设计的干净程度了。你需要在规模化测试时观察是否存在任何取巧的方法，确保你测试的环境没有为模型提供可以作弊的漏洞。这需要大量的质量控制工作，以确保评估系统不会轻易被绕过。

发言人 1 38:34
确实，因为好像在一些比如小学数学之类的简单测试上，如果你只稍微改变一下题目，一些早期模型就会被搞晕并给出错误答案。虽然它其实是有能力解答的，但它会想：“哦，这题我见过。”结果就掉坑里了。这就像那个经典的“应该开车去洗车还是开车过河”之类的脑筋急转弯问题。

发言人 2 38:51
是的，模型会被误导。对我来说，如果模型在那种题目上没表现好，那它确实应该变得更聪明一些。我们也应该让模型对被误导有一定的鲁棒性。但这也涉及到一个叫作“能力激发（capability elicitation）”的概念，也就是试图用最好的方式去衡量模型。这对于我们的安全测试尤为重要。例如，如果你想衡量模型发现安全漏洞的能力（做一些网络安全方面的事情），你希望确保模型不是因为题目本身的陷阱而被误导，你想衡量的是它真实的能力底线。因此，为了让模型最大限度地准备好应对测试挑战，我们会做大量的提示词调优，改变测试环境框架，有时甚至进行微调（fine-tune）。我们必须这么做，才能在宣布“这个模型在某项高风险能力上不擅长”之前，感到心里有底。

发言人 1 39:41
小时候，我特别喜欢读《小百科布朗（Encyclopedia Brown）》里的那些探案小故事，去解开那些小谜团。对于 GPT-4，为了防止别人在网上泄露过答案被它学到，我会专门为它编写全新的探案谜题，但以前做这事儿真的挺麻烦的。现在想想很令人兴奋：我可以让一个模型来写故事，并生成一个全新的评估测试了。那么，现在这些模型在这方面有多大的帮助？

发言人 2 40:02
帮大忙了。

发言人 1 40:04
是的，好的。

发言人 2 40:06
我认为我们现在正处于模型发展的这样一个阶段：有时候模型的输出仍然有些粗糙。它们需要人类进行质量控制（QC）或监督，以确保质量仍然很高，并且我们没有被模型糊弄过去。所以我想说，有时候人们会惊讶于我们在评估中仍然保留了大量的人工干预和参与。这是因为评估数据的质量要求往往比普通的训练数据高得多。你需要确保你正在测试的每一个数据点都具有极高的质量。因此，在这个领域，人为把关仍然是非常有价值的。

发言人 1 40:40
我们观察到一些有趣的趋势：那些实际上会使用 AI 的工作岗位似乎需求量更大了，因为 AI 让人变得更高效。你们是如何追踪这种趋势的？你们是如何寻找那些认为 AI 将会产生重大影响的领域的？

发言人 2 40:52
这些是非常难回答的问题。我认为大家对于“我们的模型到底能做多少工作”，以及“模型覆盖众多职业的速度有多快”这件事情上，缺乏准确的心理预期。目前模型主要还只是擅长“单点任务（tasks）”，而不是胜任“一份工作（job）”。相比于一个任务，一份工作要复杂得多：你必须弄清楚你想做什么，应对模糊性，你可能还需要和同事协作沟通；然后你再确定你要做哪个具体任务，最后把这个任务交给模型。这正是我们现阶段所处的状况——即使在我的工作中，模型也是在帮我完成一个个具体的任务，但我仍要负责大量思考、规划之类的工作。我认为很多人甚至连这一层都没有意识到。我觉得软件和研究领域的人体会要深得多，或者说在认知上与模型的实际能力更“对齐”，而我其他行业的朋友们则不然。我真希望人们能亲自多试用一下模型，因为那些率先尝试并亲眼看到效果的人，会真正理解这一切。但同时我也认为，在未来的某个时间点，模型将开始能够处理“任务委派”的部分。也许不久的将来，无论是弄清楚该处理什么问题、应对模糊性，还是编写出模型能够去执行的需求文档，它都能搞定。大家真的应该开始思考：在一个完全实现 AGI（通用人工智能）的世界里，即便是对于纯数字化的工作，模型能够自己构思做什么、自己执行、并与现实世界交互，那会是怎样的场景？我们现在已经看到了一些“独角兽”公司的报道，它们主要靠 AI 运转，只雇佣少数几个员工，就能创造巨大的价值。所以我确实认为存在这样一个问题：我们是否真的意识到这有多么宏大？

发言人 1 42:40
就我个人而言，机会的空间正在变得越来越大。我认识的所有最坚信 AGI 的人，所有那些频繁使用 Codex 等工具的人，他们现在完成的工作量大得惊人。他们变得更高效了，因为他们不需要被琐碎的任务束缚。随着 AI 在处理某些工作上变得越来越出色，他们会觉得，“太酷了，我现在多出了五个项目要推进，因为我有能力做更多事了。” 我认为，这大大扩展了我们潜力的“光锥”，拓宽了我们的想象边界。我觉得这些工具只是在帮助我们更快地到达那里，而不是在缩小我们的机会。

发言人 2 43:07
这可能是综合因素作用的结果。即使模型只是加快了文书工作的速度，想想新药的临床试验吧。人们要花上几个月的时间整理文书——几百页的文件来论证为什么他们应该被允许进行这项试验，然后提交给 FDA（美国食品药品监督管理局）。由于出错或遗漏，往往有 35% 的概率被驳回。然后他们得修改，最后才能进行试验。这个流程的初衷是好的，但它就是太耗时了。试验开始后，你有实验组和对照组，你需要长期记录症状、追踪情况，最后还要做大量的数据分析。但这其中很大一部分本质上就是文档记录或数据分析——属于非常典型的数字工作。

发言人 2 43:50
我认为，如果模型能够帮助加速医疗、能源、制造、政策研究、教育等领域的这些环节，这将产生巨大的加速效应。有望为人们带来更快、更便宜、更好的产品。这对个人消费者来说是非常有利的。我认为这是人们应该感到兴奋的事情，但同时，在向那个世界过渡的过程中，我们也应该深思熟虑，以一种负责任的、妥善的方式去驾驭这场变革。

发言人 1 44:19
说得太好了，谢谢你，特贾尔。

发言人 2 44:21
谢谢你邀请我。

扫码关注w3ctech微信公众号

OpenAI 官方探讨：为什么我们迫切需要构建前沿的评估体系

共收到0条回复