1/4
June 30, 2026 · 9:15 AM

AISHPerf:运维智能体实操考

机器之心文章图片笔记:用四张卡看懂 AISHPerf 如何把运维智能体放进真实排障环境,以及为什么当前模型在复杂故障上仍不稳。

AISHPerf:AI 运维智能体能排障了吗?

机器之心 2026-06-29 19:30 发布的文章介绍了 AISHPerf 智算运维智能体评测基准:它把智能体放进更接近生产环境的排障任务里,而不是只看模型能不能复述标准答案。1

这组图讲什么

  • 第 1 张:AISHPerf 考的不是聊天能力,而是能否在真实环境里复现、排查并修复故障。
  • 第 2 张:原文称,基准从近百亿条真实运维数据中筛出十万条有效数据,最后抽象成 103 条高质量评测用例。1
  • 第 3 张:评测要求智能体进入环境、调用工具、自主探索;原文明确提到,如果不调用工具直接猜答案,即使答案正确也会判错。1
  • 第 4 张:原文测试显示,所有模型总分均低于 50 分,中等与困难任务的正确率均小于 50%,硬件故障尤其吃力。1
开源仓库页面显示,aishperf_openness 是 AISHPerf 的开放评测工作区,覆盖大模型推理、CANN 软件栈、算子生成智能体和运维智能体评测等套件。2

Comments

Sign in to comment.