参考原文
Anthropic Engineering — Demystifying Evals for AI Agents Published Jan 09, 2026

Hermes Agent Eval 实践洞察

对照 Anthropic 评估框架,回顾 Hermes Agent 自身迭代中的 Good Case & Bad Case
分析周期:2026.04–05 · 核心数据来源:ka-sales evals CHECKPOINT.md + 8 份评估报告 + 模型对比实验

一、Anthropic 框架 × Hermes 实践对照

Anthropic 文章定义了 agent eval 的核心概念。下面对照 Hermes 的实践做法:

Task(任务)单个测试用例,含输入+成功标准
→ Hermes: suite.json 中每条 case (如 RP-Q01 "海康深度画像")
Trial(试次)每次运行是一次 trial
→ Hermes: runner.py prepare → fill → judge 的每条独立执行
Grader(评分器)Code-based / LLM / Human
→ Hermes: judge.py (auto regex+结构) + judge_llm.py (LLM语义) = Full Score
Transcript(轨迹)完整记录工具调用+推理
→ Hermes: /tmp/*_with_skill.txt 保存原始输出,resume 可复现
Outcome(结果)环境最终状态
→ Hermes: 输出文本的 with/without-skill 对比,Δ 衡量 skill 增量价值
Eval Suite(评估套件)一组相关任务的集合
→ Hermes: 12 个 ka-sales skill 各有独立 suite.json + rubric.md
Agent Harness(Agent 脚手架)模型+工具编排系统
→ Hermes: hermes chat -q / cronjob / delegate_task 三套执行环境
Eval Harness(评估脚手架)运行+记录+评分的基础设施
→ Hermes: runner.py + judge.py + judge_llm.py + /tmp artifacts

二、Good Cases — 与 Anthropic 框架吻合的实践

三、Bad Cases — 与框架建议相悖的实践

四、最深洞察:我们的 Eval 处于什么阶段?

"Teams without evals get bogged down in reactive loops—fixing one failure, creating another. Teams that invest early find the opposite: development accelerates as failures become test cases, and metrics replace guesswork."
— Anthropic, Demystifying Evals for AI Agents

对照 Anthropic 的"0→1 路线图",Hermes 的 eval 实践大致处于 Step 1-5 之间,卡在 Step 6-8

Anthropic StepHermes 状态差距
0. Start early ❌ 起步晚 Skill 开发在 eval 之前 2-3 周
1. Start with manual checks ✅ 已做到 suite.json 的 case 来自真实使用场景
2. Unambiguous tasks ⚠️ 部分 边界 case 仍有歧义,但已在修复
3. Balanced problem sets ✅ 优秀 每个 suite 4 case,含边界+常规
4. Robust harness ❌ 不稳定 delegate_task 404、gateway 竞态、claude -p 兜底
5. Thoughtful graders ⚠️ 方向对但碎片化 Auto+LLM 双层是正确的,但边界豁免靠 regex 堆积
6. Read transcripts ❌ 系统化不足 只在出 bug 时才读,没有例行抽查
7. Monitor saturation ⚠️ 已发现问题 多个 skill 均分 85+,但未主动设计更难 task
8. Long-term maintenance ⚠️ CHECKPOINT.md 是好开始 但缺少团队协作机制和 eval 负责人

五、改进路线图

P0 — 立即修复(影响测量准确性)

P1 — 短期加固(提升评估可信度)

P2 — 长期建设(补全 Holistic 评估体系)


生成于 2026-05-27 · 基于 Hermes Agent ka-sales 评估体系 (~/.hermes/skills/ka-sales/evals/)
Anthropic 原文 © 2026 Anthropic PBC