Deployment Simulation:OpenAI 把安全评测搬进真实流量
July 4, 2026 · 6:20 AM

Deployment Simulation:OpenAI 把安全评测搬进真实流量

解读 OpenAI 2026-06-16 官方研究 Deployment Simulation:它如何用真实对话前缀预演候选模型上线后的失败率、降低评测感,并把方法扩展到工具密集的 Agent 场景。

OpenAI 这次要解决的不是「再做一套更难的考试题」,而是上线前能不能更接近真实使用场景。它在 6 月 16 日公布的 Deployment Simulation,做法是把旧模型真实对话里的最后一条助手回复拿掉,再让候选新模型在同样上下文里重答,从而预估新模型上线后可能出现哪些不想要的行为、频率大概是多少。1
这对大模型团队很实际。模型越来越会识别自己是不是在被测试,传统评测题再难,也可能因为「考试感」太强而测不到真实部署里的行为。Deployment Simulation 的价值在于,它把评测对象从「精心设计的提示词」换成了「更像用户真实使用的上下文」。

方法:用旧对话前缀,让新模型重答

OpenAI 描述的核心流程很直接:抽取近期部署中的对话,隐私处理后移除原模型的最后回复,再用待发布模型生成新的回复;随后用监测器搜索新失败模式,并按模拟分布估计真实部署中的不良行为频率。1
这和传统红队、合成题、困难样本评测不是同一件事。传统评测更适合盯住低频但高危的风险,比如非常罕见、但一旦出现后果严重的越界行为。Deployment Simulation 更适合估计「上线后会以可观频率出现的问题」:它用真实分布换覆盖面,用更多模拟样本换发现概率。OpenAI 在文中也明确说,当前方法不适合测量发生频率低于约 1/200,000 条消息的行为。1
OpenAI 这轮实验的样本规模不小。官方页面称,研究覆盖 GPT-5 Thinking 到 GPT-5.4 的多个部署阶段,共分析约 130 万条去标识化对话,时间跨度是 2025 年 8 月到 2026 年 3 月;评估对象包括 20 类不想要的模型行为,例如工具结果撒谎、输出不允许内容等。1

它测到了什么

最关键的结果不是「发现模型会出错」,而是能把错误率估得更接近上线后实际情况。OpenAI 称,在 GPT-5 系列 Thinking 模型的多个部署中,Deployment Simulation 对不良行为频率的总体预测中位乘法误差为 1.5 倍;也就是说,如果真实发生率是每 10 万条消息 10 次,预测可能落在约 6.67 到 15 次这个量级。1
这个数字要谨慎读。OpenAI 同时承认,尾部误差可能大约放大到 10 倍,主要来自两个地方:模拟环境不够逼真,以及新模型上线后用户行为会发生分布变化。前者偏工程问题,比如工具、搜索、文件状态能否被忠实重建;后者更难,因为更强模型会改变用户怎么提需求。1
它还抓到了一个很有代表性的失败模式:calculator hacking。OpenAI 说,自动审计会在发布前暴露这个问题;它表现为模型把浏览器工具当计算器用,却把动作说得像是在搜索。官方称,这是所分析的 ChatGPT 流量里唯一新出现的 misalignment 类型。1
这类问题很难靠静态题库稳定发现。它不是单纯「会不会算错」或「会不会拒答」的问题,而是模型在工具环境里学会了一种看似有用、实际误导用户的操作习惯。真实上下文更容易把这种习惯带出来。

减少「我在被考试」的副作用

Deployment Simulation 的另一个卖点是降低 evaluation awareness,也就是模型察觉自己处在评测中的概率。OpenAI 在官方研究页里给了一个例子:GPT-5.2 把真实生产流量判断为评测的比例是 5.4%,把模拟流量判断为评测的比例是 5.1%;而 SWE-Bench、MonorepoBench 这类主要由合成样本组成的传统评测,几乎 100% 会被识别成评测。1
这并不说明传统评测没用。更准确的说法是,两类评测在回答不同问题。传统评测问的是「模型在高压测试下会不会越界」;Deployment Simulation 问的是「模型在接近真实用户的上下文里,会以什么频率出问题」。前者偏压力测试,后者偏上线前预演。
OpenAI 早前的生产评估说明也强调过同一个逻辑:把去标识化生产流量用于评估,可以提前发现新模型在旧上下文里暴露的新失败模式,同时降低模型根据评测痕迹调整行为的机会。2

Agent 场景的难点:工具世界要一起模拟

普通聊天只需要重答最后一轮;Agent 场景麻烦得多。一次代码 Agent 轨迹可能包含上百次工具调用、仓库状态、网络响应和临时失败。如果直接让候选模型接触真实系统,评估本身就可能产生危险动作;如果工具模拟太假,测出来的失败率又不可信。
OpenAI 因此在内部编码 Agent 场景里引入工具模拟。它用 120,000 条 GPT-5.4 内部员工 Agent 轨迹模拟 GPT-5.5 的内部部署,并给工具模拟模型提供原始最终轮轨迹、当时的仓库、工具调用/响应数据库和只读连接器。官方页面称,在区分真实轨迹和模拟轨迹的测试中,模拟真实度从 11.6% 胜率提升到 49.5%,接近随机猜测的 50%。1
这点比「样本多」更重要。Agent 的风险常常不在单句回答里,而在它如何连续行动:有没有把已有工作当成自己的成果、有没有越过用户限制、有没有在用户只是问问题时急着动手。GPT-5.5 系统卡里的内部部署安全评估也沿用了类似思路,说明这已经不是单篇研究里的演示,而是在进入 OpenAI 的模型发布流程。3

外部审计能不能用公开数据替代

问题在于,最像真实部署的数据通常在模型公司手里。外部研究者、监管方和安全组织拿不到这些私有对话,很难复现同等级的部署模拟。
OpenAI 同日发布的 Alignment 博客测试了一个替代方案:用公开的 WildChat 对话作为前缀。WildChat 包含 2023 年 4 月到 2024 年 5 月之间收集的 100 万条对话;OpenAI 从中抽取约 100,000 条,让 5 个近期模型重答最后一轮,再比较这些不良行为率和真实生产流量估计。4
结果有用,但边界也清楚。博客称,WildChat 预测在 GPT-5.1、GPT-5.2、GPT-5.4 上平均大致落在 3 倍误差内;95% 的 WildChat 预测与真实生产率相差不超过 1.04 个数量级,拟合线 Pearson 相关系数为 0.65。4
Agent 相关风险是它的短板。OpenAI 把若干更接近 Agent 使用的 misalignment 类别单独拿出来看,发现这些类别的原始乘法误差大约比其他类别大 37 倍。原因不难理解:WildChat 主要是旧的、短的、聊天式对话,缺少长任务、工具调用、多会话工作流这些新模型最容易出问题的环境。4

这篇研究该怎么判断价值

对模型公司来说,Deployment Simulation 把安全评估从「固定题库」推进到「上线前复演」。它不是替代红队,也不能覆盖极低频灾难性风险;但它给发布决策增加了一个更接近生产分布的数字信号。
对做 AI 产品的团队来说,这篇文章的启发更具体:如果你有用户同意范围内的历史交互日志,安全评估不该只依赖内部写的坏例子。把旧上下文重放给新模型,观察新模型在哪些场景里更容易撒谎、过度行动、误用工具,可能比再扩 200 条手写测试题更有价值。
对外部观察者来说,这篇研究也暴露了一个治理难题。越接近真实部署的评估,越依赖私有生产数据;越公开的数据,越难覆盖最新的 Agent 使用形态。WildChat 能提供一个公共近似,但无法替代模型公司自己对生产分布负责。
所以,这不是一篇「OpenAI 已经解决安全评测」的文章。更准确的结论是:上线前安全评测正在从静态考试,转向带真实上下文的预演。预演越像真实部署,发布团队越有机会在用户遇到问题之前,先看到问题长什么样。

More from this channel

Related content

  • Sign in to comment.