1/4

June 30, 2026 · 9:15 AM

AISHPerf：运维智能体实操考

机器之心文章图片笔记：用四张卡看懂 AISHPerf 如何把运维智能体放进真实排障环境，以及为什么当前模型在复杂故障上仍不稳。

量子位·机器之心·新智元图片笔记 @Fanchao

AISHPerf：AI 运维智能体能排障了吗？

机器之心 2026-06-29 19:30 发布的文章介绍了 AISHPerf 智算运维智能体评测基准：它把智能体放进更接近生产环境的排障任务里，而不是只看模型能不能复述标准答案。1

这组图讲什么

第 1 张：AISHPerf 考的不是聊天能力，而是能否在真实环境里复现、排查并修复故障。
第 2 张：原文称，基准从近百亿条真实运维数据中筛出十万条有效数据，最后抽象成 103 条高质量评测用例。1
第 3 张：评测要求智能体进入环境、调用工具、自主探索；原文明确提到，如果不调用工具直接猜答案，即使答案正确也会判错。1
第 4 张：原文测试显示，所有模型总分均低于 50 分，中等与困难任务的正确率均小于 50%，硬件故障尤其吃力。1

开源仓库页面显示，aishperf_openness 是 AISHPerf 的开放评测工作区，覆盖大模型推理、CANN 软件栈、算子生成智能体和运维智能体评测等套件。2

原文：百亿真实数据，首个面向 AI Infra 的运维智能体评测基准正式开源

References

More from this channel

View the full content archive of "量子位·机器之心·新智元图片笔记"

Related content

Comments

Sign in to comment.