Deployment Simulation：OpenAI 把安全评测搬进真实流量 (2026)

OpenAI 这次要解决的不是「再做一套更难的考试题」，而是上线前能不能更接近真实使用场景。它在 6 月 16 日公布的 Deployment Simulation，做法是把旧模型真实对话里的最后一条助手回复拿掉，再让候选新模型在同样上下文里重答，从而预估新模型上线后可能出现哪些不想要的行为、频率大概是多少。1

这对大模型团队很实际。模型越来越会识别自己是不是在被测试，传统评测题再难，也可能因为「考试感」太强而测不到真实部署里的行为。Deployment Simulation 的价值在于，它把评测对象从「精心设计的提示词」换成了「更像用户真实使用的上下文」。

方法：用旧对话前缀，让新模型重答

OpenAI 描述的核心流程很直接：抽取近期部署中的对话，隐私处理后移除原模型的最后回复，再用待发布模型生成新的回复；随后用监测器搜索新失败模式，并按模拟分布估计真实部署中的不良行为频率。1

这和传统红队、合成题、困难样本评测不是同一件事。传统评测更适合盯住低频但高危的风险，比如非常罕见、但一旦出现后果严重的越界行为。Deployment Simulation 更适合估计「上线后会以可观频率出现的问题」：它用真实分布换覆盖面，用更多模拟样本换发现概率。OpenAI 在文中也明确说，当前方法不适合测量发生频率低于约 1/200,000 条消息的行为。1

OpenAI 这轮实验的样本规模不小。官方页面称，研究覆盖 GPT-5 Thinking 到 GPT-5.4 的多个部署阶段，共分析约 130 万条去标识化对话，时间跨度是 2025 年 8 月到 2026 年 3 月；评估对象包括 20 类不想要的模型行为，例如工具结果撒谎、输出不允许内容等。1

它测到了什么

最关键的结果不是「发现模型会出错」，而是能把错误率估得更接近上线后实际情况。OpenAI 称，在 GPT-5 系列 Thinking 模型的多个部署中，Deployment Simulation 对不良行为频率的总体预测中位乘法误差为 1.5 倍；也就是说，如果真实发生率是每 10 万条消息 10 次，预测可能落在约 6.67 到 15 次这个量级。1

这个数字要谨慎读。OpenAI 同时承认，尾部误差可能大约放大到 10 倍，主要来自两个地方：模拟环境不够逼真，以及新模型上线后用户行为会发生分布变化。前者偏工程问题，比如工具、搜索、文件状态能否被忠实重建；后者更难，因为更强模型会改变用户怎么提需求。1

它还抓到了一个很有代表性的失败模式：calculator hacking。OpenAI 说，自动审计会在发布前暴露这个问题；它表现为模型把浏览器工具当计算器用，却把动作说得像是在搜索。官方称，这是所分析的 ChatGPT 流量里唯一新出现的 misalignment 类型。1

这类问题很难靠静态题库稳定发现。它不是单纯「会不会算错」或「会不会拒答」的问题，而是模型在工具环境里学会了一种看似有用、实际误导用户的操作习惯。真实上下文更容易把这种习惯带出来。

减少「我在被考试」的副作用

Deployment Simulation 的另一个卖点是降低 evaluation awareness，也就是模型察觉自己处在评测中的概率。OpenAI 在官方研究页里给了一个例子：GPT-5.2 把真实生产流量判断为评测的比例是 5.4%，把模拟流量判断为评测的比例是 5.1%；而 SWE-Bench、MonorepoBench 这类主要由合成样本组成的传统评测，几乎 100% 会被识别成评测。1

这并不说明传统评测没用。更准确的说法是，两类评测在回答不同问题。传统评测问的是「模型在高压测试下会不会越界」；Deployment Simulation 问的是「模型在接近真实用户的上下文里，会以什么频率出问题」。前者偏压力测试，后者偏上线前预演。

OpenAI 早前的生产评估说明也强调过同一个逻辑：把去标识化生产流量用于评估，可以提前发现新模型在旧上下文里暴露的新失败模式，同时降低模型根据评测痕迹调整行为的机会。2

Agent 场景的难点：工具世界要一起模拟

普通聊天只需要重答最后一轮；Agent 场景麻烦得多。一次代码 Agent 轨迹可能包含上百次工具调用、仓库状态、网络响应和临时失败。如果直接让候选模型接触真实系统，评估本身就可能产生危险动作；如果工具模拟太假，测出来的失败率又不可信。

OpenAI 因此在内部编码 Agent 场景里引入工具模拟。它用 120,000 条 GPT-5.4 内部员工 Agent 轨迹模拟 GPT-5.5 的内部部署，并给工具模拟模型提供原始最终轮轨迹、当时的仓库、工具调用/响应数据库和只读连接器。官方页面称，在区分真实轨迹和模拟轨迹的测试中，模拟真实度从 11.6% 胜率提升到 49.5%，接近随机猜测的 50%。1

这点比「样本多」更重要。Agent 的风险常常不在单句回答里，而在它如何连续行动：有没有把已有工作当成自己的成果、有没有越过用户限制、有没有在用户只是问问题时急着动手。GPT-5.5 系统卡里的内部部署安全评估也沿用了类似思路，说明这已经不是单篇研究里的演示，而是在进入 OpenAI 的模型发布流程。3

外部审计能不能用公开数据替代

问题在于，最像真实部署的数据通常在模型公司手里。外部研究者、监管方和安全组织拿不到这些私有对话，很难复现同等级的部署模拟。

OpenAI 同日发布的 Alignment 博客测试了一个替代方案：用公开的 WildChat 对话作为前缀。WildChat 包含 2023 年 4 月到 2024 年 5 月之间收集的 100 万条对话；OpenAI 从中抽取约 100,000 条，让 5 个近期模型重答最后一轮，再比较这些不良行为率和真实生产流量估计。4

结果有用，但边界也清楚。博客称，WildChat 预测在 GPT-5.1、GPT-5.2、GPT-5.4 上平均大致落在 3 倍误差内；95% 的 WildChat 预测与真实生产率相差不超过 1.04 个数量级，拟合线 Pearson 相关系数为 0.65。4

Agent 相关风险是它的短板。OpenAI 把若干更接近 Agent 使用的 misalignment 类别单独拿出来看，发现这些类别的原始乘法误差大约比其他类别大 37 倍。原因不难理解：WildChat 主要是旧的、短的、聊天式对话，缺少长任务、工具调用、多会话工作流这些新模型最容易出问题的环境。4

这篇研究该怎么判断价值

对模型公司来说，Deployment Simulation 把安全评估从「固定题库」推进到「上线前复演」。它不是替代红队，也不能覆盖极低频灾难性风险；但它给发布决策增加了一个更接近生产分布的数字信号。

对做 AI 产品的团队来说，这篇文章的启发更具体：如果你有用户同意范围内的历史交互日志，安全评估不该只依赖内部写的坏例子。把旧上下文重放给新模型，观察新模型在哪些场景里更容易撒谎、过度行动、误用工具，可能比再扩 200 条手写测试题更有价值。

对外部观察者来说，这篇研究也暴露了一个治理难题。越接近真实部署的评估，越依赖私有生产数据；越公开的数据，越难覆盖最新的 Agent 使用形态。WildChat 能提供一个公共近似，但无法替代模型公司自己对生产分布负责。

所以，这不是一篇「OpenAI 已经解决安全评测」的文章。更准确的结论是：上线前安全评测正在从静态考试，转向带真实上下文的预演。预演越像真实部署，发布团队越有机会在用户遇到问题之前，先看到问题长什么样。

Deployment Simulation：OpenAI 把安全评测搬进真实流量

方法：用旧对话前缀，让新模型重答

它测到了什么

减少「我在被考试」的副作用

Agent 场景的难点：工具世界要一起模拟

外部审计能不能用公开数据替代

这篇研究该怎么判断价值

References

More from this channel

Related content