Hermes Agent Eval 实践洞察

对照 Anthropic 评估框架，回顾 Hermes Agent 自身迭代中的 Good Case & Bad Case
分析周期：2026.04–05 · 核心数据来源：ka-sales evals CHECKPOINT.md + 8 份评估报告 + 模型对比实验

一、Anthropic 框架 × Hermes 实践对照

Anthropic 文章定义了 agent eval 的核心概念。下面对照 Hermes 的实践做法：

Task（任务）单个测试用例，含输入+成功标准
→ Hermes: suite.json 中每条 case (如 RP-Q01 "海康深度画像")

Trial（试次）每次运行是一次 trial
→ Hermes: runner.py prepare → fill → judge 的每条独立执行

Grader（评分器）Code-based / LLM / Human
→ Hermes: judge.py (auto regex+结构) + judge_llm.py (LLM语义) = Full Score

Transcript（轨迹）完整记录工具调用+推理
→ Hermes: /tmp/*_with_skill.txt 保存原始输出，resume 可复现

Outcome（结果）环境最终状态
→ Hermes: 输出文本的 with/without-skill 对比，Δ 衡量 skill 增量价值

Eval Suite（评估套件）一组相关任务的集合
→ Hermes: 12 个 ka-sales skill 各有独立 suite.json + rubric.md

Agent Harness（Agent 脚手架）模型+工具编排系统
→ Hermes: hermes chat -q / cronjob / delegate_task 三套执行环境

Eval Harness（评估脚手架）运行+记录+评分的基础设施
→ Hermes: runner.py + judge.py + judge_llm.py + /tmp artifacts

二、Good Cases — 与 Anthropic 框架吻合的实践

三、Bad Cases — 与框架建议相悖的实践

四、最深洞察：我们的 Eval 处于什么阶段？

"Teams without evals get bogged down in reactive loops—fixing one failure, creating another. Teams that invest early find the opposite: development accelerates as failures become test cases, and metrics replace guesswork."
— Anthropic, Demystifying Evals for AI Agents

对照 Anthropic 的"0→1 路线图"，Hermes 的 eval 实践大致处于 Step 1-5 之间，卡在 Step 6-8：

Anthropic Step	Hermes 状态	差距
0. Start early	❌ 起步晚	Skill 开发在 eval 之前 2-3 周
1. Start with manual checks	✅ 已做到	suite.json 的 case 来自真实使用场景
2. Unambiguous tasks	⚠️ 部分	边界 case 仍有歧义，但已在修复
3. Balanced problem sets	✅ 优秀	每个 suite 4 case，含边界+常规
4. Robust harness	❌ 不稳定	delegate_task 404、gateway 竞态、claude -p 兜底
5. Thoughtful graders	⚠️ 方向对但碎片化	Auto+LLM 双层是正确的，但边界豁免靠 regex 堆积
6. Read transcripts	❌ 系统化不足	只在出 bug 时才读，没有例行抽查
7. Monitor saturation	⚠️ 已发现问题	多个 skill 均分 85+，但未主动设计更难 task
8. Long-term maintenance	⚠️ CHECKPOINT.md 是好开始	但缺少团队协作机制和 eval 负责人

Anthropic Step

Hermes 状态

差距

0. Start early

❌ 起步晚

Skill 开发在 eval 之前 2-3 周

1. Start with manual checks

✅ 已做到

suite.json 的 case 来自真实使用场景

2. Unambiguous tasks

⚠️ 部分

边界 case 仍有歧义，但已在修复

3. Balanced problem sets

✅ 优秀

每个 suite 4 case，含边界+常规

4. Robust harness

❌ 不稳定

delegate_task 404、gateway 竞态、claude -p 兜底

5. Thoughtful graders

⚠️ 方向对但碎片化

Auto+LLM 双层是正确的，但边界豁免靠 regex 堆积

6. Read transcripts

❌ 系统化不足

只在出 bug 时才读，没有例行抽查

7. Monitor saturation

⚠️ 已发现问题

多个 skill 均分 85+，但未主动设计更难 task

8. Long-term maintenance

⚠️ CHECKPOINT.md 是好开始

但缺少团队协作机制和 eval 负责人

五、改进路线图

P0 — 立即修复（影响测量准确性）

P0 修复 delegate_task 在 LLM judge 上的稳定性，或固化 claude -p 兜底管线
P0 解决双 gateway claim race，确保 eval 环境唯一
P0 建立 routine transcript reading 习惯：每周随机抽 3 条 case 读原始输出

P1 — 短期加固（提升评估可信度）

P1 实施 pass@3 测量（每个 case 跑 3 次），区分能力 vs 运气
P1 对 3 个典型 case 做一次 human calibration：你本人评分 vs LLM 评分对比
P1 为接近满分的 skill (negotiation-pricing 92.0, first-contact 89.0) 设计更难 task
P1 抽象边界豁免为统一的 judge.py helper，替代当前碎片化 regex

P2 — 长期建设（补全 Holistic 评估体系）

P2 Eval-Driven Development：新 skill 上线前先写 suite.json + rubric.md
P2 引入 User Feedback 层：在飞书群中收集 skill 使用满意度
P2 建立 Eval Dashboard：可视化全量 skill 的 pass rate / Δ / trend
P2 定期 cross-model eval：每个新模型发布时自动跑全量 suite

一、Anthropic 框架 × Hermes 实践对照

二、Good Cases — 与 Anthropic 框架吻合的实践

Auto (Code-based) + LLM (Model-based) = Full Score

直接量化 Skill 增量价值

数据采集与生成分离的评估设计

delegate_task 做自动 Review

P0 优化：不硬套模板，允许合法降级

可恢复、可追溯的评估状态管理

系统性对比 none vs low 对产出质量的影响

Fast 场景下 flash+low 是唯一正确选择

优化后自动验证不引入新问题

评估环境读取统一事实源

三、Bad Cases — 与框架建议相悖的实践

Skill 先上线，Eval 后补课

LLM Judge 执行环境不稳定

双 gateway 导致执行冲突

LLM Judge 未与人类专家对齐

依赖分数而忽略原始输出

单一试次，忽略非确定性

只有自动化 Eval，没有其他维度

多个 Skill 接近满分，区分度消失

Regex 堆积，边界豁免碎片化

Eval 是事后验证，不是事前驱动

四、最深洞察：我们的 Eval 处于什么阶段？

五、改进路线图

P0 — 立即修复（影响测量准确性）

P1 — 短期加固（提升评估可信度）

P2 — 长期建设（补全 Holistic 评估体系）