Glossary · Updated 2026-04-30

AI Agent 是什么

AI Agent 是能够理解目标、选择工具、执行动作、观察结果并持续迭代的 AI 系统。它和普通聊天机器人的区别在于：Agent 不只回答问题，还会行动。

过去的大模型主要负责生成文本。用户提出问题，模型给出回答。这个模式本质上仍然是问答。

AI Agent 则更进一步：它不是只生成答案，而是围绕一个目标展开行动。它可以拆解任务、调用工具、读取文件、搜索信息、执行命令、检查结果，并在必要时修正计划。

一句话说：模型负责思考，Agent 负责把思考连接到现实世界。

Agent 和 Chatbot 的区别

Chatbot 的核心能力是对话。

Agent 的核心能力是完成任务。

Chatbot 等待用户一步步指令。Agent 会根据目标主动判断下一步要做什么。

Chatbot 的输出通常是文本。Agent 的输出可以是文件、代码、报告、网页、邮件、数据库更新、知识库笔记，甚至是一整套工作流结果。

这就是为什么 Claude Code、OpenCode、Cursor、Deep Research 这类工具，比普通聊天框更接近 Agent。

Agent 的四个基本能力

一个真正的 Agent 至少需要四种能力。

第一是感知。它需要知道当前环境是什么：有哪些文件、有哪些工具、用户目标是什么、任务执行到哪一步。

第二是思考。它需要理解目标、拆解问题、制定计划，并在执行中做判断。

第三是行动。它需要调用工具，而不是停留在回答层面。行动可以是搜索、写文件、运行命令、调用 API、创建笔记。

第四是验证。它需要检查结果是否完成目标。如果结果不对，就继续修正。

这四个环节连起来，就是 Agentic Loop：理解目标 → 制定计划 → 调用工具 → 观察结果 → 评估 → 迭代。

Workflow 和 Agent 的区别

Workflow 定义的是空间结构：先做什么，再做什么，节点之间如何连接。

Agent 定义的是逻辑结构：在当前状态下，下一步应该怎么判断。

一个传统 workflow 更像流水线，适合确定性流程。比如收到表单后发邮件、写入数据库、通知 Slack。

Agent 更像一个执行者，适合不确定任务。比如调研一个行业、写一篇文章、修复一个复杂 bug、整理一个知识库。

复杂任务通常需要两者结合：Workflow 提供框架，Agent 负责在每个节点里做判断。这就是 Agentic Workflow。

命令行 Agent 为什么重要

命令行 Agent 是理解通用 Agent 的关键形态。

命令行本来就是一个巨大的工具生态：文件操作、搜索、转换、版本管理、部署、脚本、API 调用。AI 一旦接入命令行，就拥有了行动能力。

这也是 Claude Code、OpenCode 这类工具重要的原因。它们不是把 AI 放进一个漂亮界面，而是把 AI 接入真实工作环境。

从 Unix 时代流传下来的组合哲学，反而在 AI 时代重新变得重要：小工具通过管道组合，Agent 负责调度。

MCP 和 Agent 的关系

MCP 给 Agent 提供感知和工具接口。

如果没有 MCP，Agent 能做的事往往局限在聊天和少量内置工具里。接入 MCP 后，Agent 可以调用 Obsidian、浏览器、数据库、文件系统、搜索工具、设计工具和各种业务系统。

可以把 MCP 理解成 Agent 的通用外设接口。

模型加上工具还不够，必须有一套标准协议让工具可靠接入。MCP 解决的就是这个问题。

多 Agent 是什么

单个 Agent 可以完成任务，但复杂任务往往需要分工。

多 Agent 编排把任务拆给不同角色：Chief 负责判断，researcher 负责资料，writer 负责起草，editor 负责精修，fact-checker 负责核查。

这不是为了制造复杂性，而是因为复杂工作本来就有角色分工。

当 AI 从「单兵」变成「团队」，人的角色也会变化：你不再只是操作员，而是系统设计者和主编。

Agent 的真正瓶颈

Agent 的瓶颈不只是模型能力。

很多时候，同一个模型在不同环境里表现差距巨大。原因在于 Harness：你给它什么工具、什么文件、什么规则、什么反馈机制。

一个没有地图、没有工具、没有验收标准的 Agent，再聪明也只能临场发挥。

一个有清晰文件系统、Skills、MCP、工作流和检查机制的 Agent，才可能稳定交付。

为什么 Agent 会改变软件

传统软件面向人类，所以需要界面、按钮、菜单和流程设计。

Agent 时代的软件，会越来越多地面向 Agent：清晰的 API、CLI、MCP、结构化文档、可读文件、可验证结果。

用户不一定亲自打开软件操作，而是让 Agent 代表自己完成任务。

这也是「To Agent, not Human」的方向：未来很多工具首先要被 Agent 调用，其次才是被人类点击。