SpecAgentLab
多轮 Agent 评测工作台
把 Baseline 与 Draft+Verifier 两类执行路径放到同一套 bench 里,对 latency、cost、quality 与 tool reliability 做可追踪的对比分析。
让 Agent 评测不只停留在分数,而是能回到 trace、工具调用和每次运行的上下文里继续判断。
- 围绕任务包、评分、run detail、dashboard 搭起完整的评测闭环。
- 用 Prisma + Postgres 记录 Run 与 ToolCall,为比较不同执行策略提供结构化数据。
- 在线 demo 面向公开展示,既能讲清思路,也能直接上手体验。