Talk to me点按钮开聊
LatencyFast enough to feel alive
Personal SpaceShanghai / Fudan University

你好。

Jacob Liu · Agent Systems · AI Product Engineering

Building agent products people trust.

I am Jacob Liu, a postgraduate student at Fudan University working at the intersection of LLM systems, agent evaluation, and AI product design. Recently, I shipped SpecAgentLab and Briefly AI to turn research workflows into tools people can actually use.

Agent EvaluationLLM InferenceLocal-first RAGReadable AI Interfaces

Current through-line: make AI systems measurable, inspectable, and calm enough to be trusted.

QualityReadable systems, visible tradeoffs
Build Log

研究与构建

从多轮 Agent 评测到本地 RAG 工具,我更关心系统怎样被观察、解释和持续迭代。

  1. Build Log

    SpecAgentLab | 多轮 Agent 评测工作台

    2026.05 — 至今

    个人项目 · Evaluation Systems / Full-stack Product

    围绕任务包、评分、trace、dashboard 和 run detail 设计完整评测闭环,把 Baseline 与 Draft+Verifier 两类策略放到同一视图中比较 latency、cost、quality 与 tool reliability,并通过在线 demo 对外展示方法与结果。

  2. Build Log

    Briefly AI | 本地优先论文阅读桌面应用

    2026.05 — 至今

    个人项目 · Desktop Product / Local RAG

    使用 Electron 构建从 PDF 导入、结构化解析、混合检索到 citation-grounded 对话的阅读工作流,支持本地启发式、Ollama 与 OpenAI-compatible API 模型路由,让研究笔记、引用和原文上下文保持可追踪。

  3. Build Log

    Multi-turn Agent RL 评测与优化

    2026.02 — 至今

    研究方向 · Agent Evaluation / Reinforcement Learning

    基于多轮规划任务搭建评测环境,关注中间信号设计、轨迹质量与跨轮知识传递,让 Agent 优化过程不只追求最终成功率,也能更稳定地反映真实交互表现。

Toolbox

相关技能

语言与数据

  • Python
  • TypeScript
  • SQL
  • C++

产品工程

  • Next.js 16
  • Electron
  • Prisma
  • PostgreSQL
  • Docker

AI / 系统

  • Vercel AI SDK
  • RAG
  • Ollama
  • Agent Evaluation
  • Prompt / UX Writing
Background

教育与研究背景

研究训练、课程与学术环境,塑造了我做 Agent 系统和 AI 产品时的方法论。

  1. Timeline Entry

    电子信息 · 硕士研究生

    2025.09 — 至今

    复旦大学 · 计算与智能创新学院

    研究方向聚焦大语言模型推理系统、Agent 架构与评测,以及 AI 产品如何把复杂能力组织成可理解的交互体验。

  2. Timeline Entry

    通信工程 · 本科

    2021.09 — 2025.06

    南京大学 · 电子科学与工程学院

    在通信、信号与系统训练之外,也逐渐把兴趣转向系统工程、推理效率与人机交互之间的连接点。

Selected Work

精选项目

这里收纳近期更完整的构建。最新更新包括 SpecAgentLab 与 Briefly AI,但它们不是我全部的工作面貌。

  • Live Demo2026

    SpecAgentLab

    多轮 Agent 评测工作台

    把 Baseline 与 Draft+Verifier 两类执行路径放到同一套 bench 里,对 latency、cost、quality 与 tool reliability 做可追踪的对比分析。

    让 Agent 评测不只停留在分数,而是能回到 trace、工具调用和每次运行的上下文里继续判断。

    • 围绕任务包、评分、run detail、dashboard 搭起完整的评测闭环。
    • 用 Prisma + Postgres 记录 Run 与 ToolCall,为比较不同执行策略提供结构化数据。
    • 在线 demo 面向公开展示,既能讲清思路,也能直接上手体验。
    Next.js 16React 19PrismaPostgreSQLVercel AI SDKRecharts
  • Desktop App2026

    Briefly AI

    本地优先论文阅读工作流

    把 PDF 导入、结构化解析、混合检索和 citation-grounded 对话收进一个桌面应用里,让研究阅读从“堆文件”变成“可复用上下文”。

    重点不是更炫的聊天,而是让回答始终能追溯到文献原文、目录结构和具体引用位置。

    • Electron 三栏桌面界面,适合长时间阅读、做笔记和跨文献回看。
    • 默认支持本地启发式摘要,同时兼容 Ollama 与 OpenAI-compatible API 路由。
    • 在 chunk 级检索与回答中保留引用链路,让理解、摘要与二次写作更可靠。
    ElectronReactTypeScriptLocal RAGOllamaOpenAI-compatible APIs
Writing

博客与笔记

记录我在 Agent、推理加速、工程设计和类型边界上的长期思考,也保留那些可复用的实践细节。

Site Appreciation

如果这些记录对你有帮助,欢迎点一下赞。

  • 2026-01-181分钟推理加速

    投机解码落地:在异步 RL 里稳住接受率

    草稿模型滞后、接受率抖动、回退策略——把投机解码从论文搬进训练流水线时,我们踩过哪些坑,又如何用动态阈值把吞吐拉上去。

  • 2025-12-061分钟强化学习

    多轮 Agent 评测:不止看成功率

    在数学推理、WebShop 等多轮场景里,如何把「做对」拆成可训练的中间信号,并用轨迹多样性约束过拟合。

  • 2025-10-221分钟TypeScript

    用类型系统把 API 边界钉在仓库里

    在领域模型与 HTTP 层之间,用 zod / 显式 DTO 与 branded type,把「口头约定」变成编译期错误。

  • 2025-08-301分钟工程

    vLLM Rollout:运维侧的几个硬习惯

    从容量规划、版本发布到回滚,把推理服务当成「会参与训练的数据源」来运维,而不是普通在线 API。

Off Screen

长期兴趣与偏好

我也关心器物、排版、摄影和系统如何被人真正使用,它们会反过来影响我做产品时的判断。

长期兴趣

  • Interest

    胶片、相机与 photobook

    喜欢慢节奏测光、冲洗和翻阅成册图像。它提醒我:信息密度、留白和节奏感,本来就是设计的一部分。

  • Interest

    键盘与桌面器物

    会认真折腾配列、键程、材质和手感。对我来说,输入设备和软件界面一样,都在塑造长期工作的情绪与效率。

  • Interest

    独立游戏与空间叙事

    常常从关卡节奏、引导方式和失败反馈里学产品设计,尤其在信息揭示和学习曲线的拿捏上很受启发。

我相信的产品原则

  • 我喜欢能自我解释的产品:trace、引用、延迟数字和状态提示,本身就是界面的一部分。
  • 研究一旦能被非研究者看懂、复现和使用,价值才真正开始放大。
  • 文案、默认值、文档和边界处理不是收尾工作,它们常常决定了系统是否真的可用。