Glossary · Updated 2026-04-30

AI Agent 是什么

AI Agent 是能够理解目标、选择工具、执行动作、观察结果并持续迭代的 AI 系统。它和普通聊天机器人的区别在于:Agent 不只回答问题,还会行动。

过去的大模型主要负责生成文本。用户提出问题,模型给出回答。这个模式本质上仍然是问答。

AI Agent 则更进一步:它不是只生成答案,而是围绕一个目标展开行动。它可以拆解任务、调用工具、读取文件、搜索信息、执行命令、检查结果,并在必要时修正计划。

一句话说:模型负责思考,Agent 负责把思考连接到现实世界。

Agent 和 Chatbot 的区别

Chatbot 的核心能力是对话。

Agent 的核心能力是完成任务。

Chatbot 等待用户一步步指令。Agent 会根据目标主动判断下一步要做什么。

Chatbot 的输出通常是文本。Agent 的输出可以是文件、代码、报告、网页、邮件、数据库更新、知识库笔记,甚至是一整套工作流结果。

这就是为什么 Claude Code、OpenCode、Cursor、Deep Research 这类工具,比普通聊天框更接近 Agent。

Agent 的四个基本能力

一个真正的 Agent 至少需要四种能力。

第一是感知。它需要知道当前环境是什么:有哪些文件、有哪些工具、用户目标是什么、任务执行到哪一步。

第二是思考。它需要理解目标、拆解问题、制定计划,并在执行中做判断。

第三是行动。它需要调用工具,而不是停留在回答层面。行动可以是搜索、写文件、运行命令、调用 API、创建笔记。

第四是验证。它需要检查结果是否完成目标。如果结果不对,就继续修正。

这四个环节连起来,就是 Agentic Loop:理解目标 → 制定计划 → 调用工具 → 观察结果 → 评估 → 迭代。

Workflow 和 Agent 的区别

Workflow 定义的是空间结构:先做什么,再做什么,节点之间如何连接。

Agent 定义的是逻辑结构:在当前状态下,下一步应该怎么判断。

一个传统 workflow 更像流水线,适合确定性流程。比如收到表单后发邮件、写入数据库、通知 Slack。

Agent 更像一个执行者,适合不确定任务。比如调研一个行业、写一篇文章、修复一个复杂 bug、整理一个知识库。

复杂任务通常需要两者结合:Workflow 提供框架,Agent 负责在每个节点里做判断。这就是 Agentic Workflow。

命令行 Agent 为什么重要

命令行 Agent 是理解通用 Agent 的关键形态。

命令行本来就是一个巨大的工具生态:文件操作、搜索、转换、版本管理、部署、脚本、API 调用。AI 一旦接入命令行,就拥有了行动能力。

这也是 Claude Code、OpenCode 这类工具重要的原因。它们不是把 AI 放进一个漂亮界面,而是把 AI 接入真实工作环境。

从 Unix 时代流传下来的组合哲学,反而在 AI 时代重新变得重要:小工具通过管道组合,Agent 负责调度。

MCP 和 Agent 的关系

MCP 给 Agent 提供感知和工具接口。

如果没有 MCP,Agent 能做的事往往局限在聊天和少量内置工具里。接入 MCP 后,Agent 可以调用 Obsidian、浏览器、数据库、文件系统、搜索工具、设计工具和各种业务系统。

可以把 MCP 理解成 Agent 的通用外设接口。

模型加上工具还不够,必须有一套标准协议让工具可靠接入。MCP 解决的就是这个问题。

多 Agent 是什么

单个 Agent 可以完成任务,但复杂任务往往需要分工。

多 Agent 编排把任务拆给不同角色:Chief 负责判断,researcher 负责资料,writer 负责起草,editor 负责精修,fact-checker 负责核查。

这不是为了制造复杂性,而是因为复杂工作本来就有角色分工。

当 AI 从「单兵」变成「团队」,人的角色也会变化:你不再只是操作员,而是系统设计者和主编。

Agent 的真正瓶颈

Agent 的瓶颈不只是模型能力。

很多时候,同一个模型在不同环境里表现差距巨大。原因在于 Harness:你给它什么工具、什么文件、什么规则、什么反馈机制。

一个没有地图、没有工具、没有验收标准的 Agent,再聪明也只能临场发挥。

一个有清晰文件系统、Skills、MCP、工作流和检查机制的 Agent,才可能稳定交付。

为什么 Agent 会改变软件

传统软件面向人类,所以需要界面、按钮、菜单和流程设计。

Agent 时代的软件,会越来越多地面向 Agent:清晰的 API、CLI、MCP、结构化文档、可读文件、可验证结果。

用户不一定亲自打开软件操作,而是让 Agent 代表自己完成任务。

这也是「To Agent, not Human」的方向:未来很多工具首先要被 Agent 调用,其次才是被人类点击。

相关概念

newtype Wiki is a structured knowledge base from newtype.