LatencyFast enough to feel alive

Personal SpaceShanghai / Fudan University

你好。

Jacob Liu · Agent Systems · AI Product Engineering

Building agent products people trust.

I am Jacob Liu, a postgraduate student at Fudan University working at the intersection of LLM systems, agent evaluation, and AI product design. Recently, I shipped SpecAgentLab and Briefly AI to turn research workflows into tools people can actually use.

Selected Work Writing & Notes

Agent EvaluationLLM InferenceLocal-first RAGReadable AI Interfaces

Current through-line: make AI systems measurable, inspectable, and calm enough to be trusted.

QualityReadable systems, visible tradeoffs

Build Log

研究与构建

从多轮 Agent 评测到本地 RAG 工具，我更关心系统怎样被观察、解释和持续迭代。

Build Log
SpecAgentLab | 多轮 Agent 评测工作台
2026.05 — 至今
个人项目 · Evaluation Systems / Full-stack Product
围绕任务包、评分、trace、dashboard 和 run detail 设计完整评测闭环，把 Baseline 与 Draft+Verifier 两类策略放到同一视图中比较 latency、cost、quality 与 tool reliability，并通过在线 demo 对外展示方法与结果。
Build Log
Briefly AI | 本地优先论文阅读桌面应用
2026.05 — 至今
个人项目 · Desktop Product / Local RAG
使用 Electron 构建从 PDF 导入、结构化解析、混合检索到 citation-grounded 对话的阅读工作流，支持本地启发式、Ollama 与 OpenAI-compatible API 模型路由，让研究笔记、引用和原文上下文保持可追踪。
Build Log
Multi-turn Agent RL 评测与优化
2026.02 — 至今
研究方向 · Agent Evaluation / Reinforcement Learning
基于多轮规划任务搭建评测环境，关注中间信号设计、轨迹质量与跨轮知识传递，让 Agent 优化过程不只追求最终成功率，也能更稳定地反映真实交互表现。

Toolbox

教育与研究背景

研究训练、课程与学术环境，塑造了我做 Agent 系统和 AI 产品时的方法论。

Timeline Entry
电子信息 · 硕士研究生
2025.09 — 至今
复旦大学 · 计算与智能创新学院
研究方向聚焦大语言模型推理系统、Agent 架构与评测，以及 AI 产品如何把复杂能力组织成可理解的交互体验。
Timeline Entry
通信工程 · 本科
2021.09 — 2025.06
南京大学 · 电子科学与工程学院
在通信、信号与系统训练之外，也逐渐把兴趣转向系统工程、推理效率与人机交互之间的连接点。

Selected Work

精选项目

这里收纳近期更完整的构建。最新更新包括 SpecAgentLab 与 Briefly AI，但它们不是我全部的工作面貌。

Live Demo2026
SpecAgentLab
多轮 Agent 评测工作台
把 Baseline 与 Draft+Verifier 两类执行路径放到同一套 bench 里，对 latency、cost、quality 与 tool reliability 做可追踪的对比分析。
让 Agent 评测不只停留在分数，而是能回到 trace、工具调用和每次运行的上下文里继续判断。
- 围绕任务包、评分、run detail、dashboard 搭起完整的评测闭环。
- 用 Prisma + Postgres 记录 Run 与 ToolCall，为比较不同执行策略提供结构化数据。
- 在线 demo 面向公开展示，既能讲清思路，也能直接上手体验。
Next.js 16React 19PrismaPostgreSQLVercel AI SDKRecharts
Live Demo GitHub
Desktop App2026
Briefly AI
本地优先论文阅读工作流
把 PDF 导入、结构化解析、混合检索和 citation-grounded 对话收进一个桌面应用里，让研究阅读从“堆文件”变成“可复用上下文”。
重点不是更炫的聊天，而是让回答始终能追溯到文献原文、目录结构和具体引用位置。
- Electron 三栏桌面界面，适合长时间阅读、做笔记和跨文献回看。
- 默认支持本地启发式摘要，同时兼容 Ollama 与 OpenAI-compatible API 路由。
- 在 chunk 级检索与回答中保留引用链路，让理解、摘要与二次写作更可靠。
ElectronReactTypeScriptLocal RAGOllamaOpenAI-compatible APIs
GitHub

Writing

博客与笔记

记录我在 Agent、推理加速、工程设计和类型边界上的长期思考，也保留那些可复用的实践细节。

Site Appreciation

如果这些记录对你有帮助，欢迎点一下赞。

2026-01-18约1分钟推理加速
投机解码落地：在异步 RL 里稳住接受率
草稿模型滞后、接受率抖动、回退策略——把投机解码从论文搬进训练流水线时，我们踩过哪些坑，又如何用动态阈值把吞吐拉上去。
阅读全文
2025-12-06约1分钟强化学习
多轮 Agent 评测：不止看成功率
在数学推理、WebShop 等多轮场景里，如何把「做对」拆成可训练的中间信号，并用轨迹多样性约束过拟合。
阅读全文
2025-10-22约1分钟TypeScript
用类型系统把 API 边界钉在仓库里
在领域模型与 HTTP 层之间，用 zod / 显式 DTO 与 branded type，把「口头约定」变成编译期错误。
阅读全文
2025-08-30约1分钟工程
vLLM Rollout：运维侧的几个硬习惯
从容量规划、版本发布到回滚，把推理服务当成「会参与训练的数据源」来运维，而不是普通在线 API。
阅读全文

Off Screen

长期兴趣与偏好

我也关心器物、排版、摄影和系统如何被人真正使用，它们会反过来影响我做产品时的判断。

长期兴趣

Interest
胶片、相机与 photobook
喜欢慢节奏测光、冲洗和翻阅成册图像。它提醒我：信息密度、留白和节奏感，本来就是设计的一部分。
Interest
键盘与桌面器物
会认真折腾配列、键程、材质和手感。对我来说，输入设备和软件界面一样，都在塑造长期工作的情绪与效率。
Interest
独立游戏与空间叙事
常常从关卡节奏、引导方式和失败反馈里学产品设计，尤其在信息揭示和学习曲线的拿捏上很受启发。

我相信的产品原则

我喜欢能自我解释的产品：trace、引用、延迟数字和状态提示，本身就是界面的一部分。
研究一旦能被非研究者看懂、复现和使用，价值才真正开始放大。
文案、默认值、文档和边界处理不是收尾工作，它们常常决定了系统是否真的可用。

Building agent products people trust.

研究与构建

SpecAgentLab | 多轮 Agent 评测工作台

Briefly AI | 本地优先论文阅读桌面应用

Multi-turn Agent RL 评测与优化

相关技能

语言与数据

产品工程

AI / 系统

教育与研究背景

电子信息 · 硕士研究生

通信工程 · 本科

精选项目

SpecAgentLab

Briefly AI

博客与笔记

投机解码落地：在异步 RL 里稳住接受率

多轮 Agent 评测：不止看成功率

用类型系统把 API 边界钉在仓库里

vLLM Rollout：运维侧的几个硬习惯

长期兴趣与偏好

长期兴趣

胶片、相机与 photobook

键盘与桌面器物

独立游戏与空间叙事

我相信的产品原则