RAG 是什么
RAG 是 Retrieval-Augmented Generation,意思是检索增强生成。它让模型在回答前先检索资料,再基于资料生成答案。
RAG 曾经是 AI 知识库最流行的方案。
它的基本思路很直观:模型本身不知道你的私有资料,所以先把文档放进知识库;用户提问时,系统从知识库里找相关片段;再把这些片段放进上下文,让模型基于资料回答。
这解决了大模型的一个关键问题:模型不能凭空知道你的文档、笔记、制度、项目和历史内容。
RAG 的基本流程
一个典型 RAG 系统通常包含五步。
第一,导入文档。
把 PDF、网页、Markdown、Word、Notion 页面或数据库内容放进系统。
第二,切块。
把长文档切成较小片段,方便检索。
第三,向量化。
用 embedding 模型把文本片段变成向量。
第四,检索。
用户提问时,把问题也向量化,然后找出最相似的文档片段。
第五,生成。
把检索到的片段放进 prompt,让模型基于资料回答。
RAG 适合什么
RAG 很适合知识问答。
例如:
- 产品文档问答。
- 公司制度查询。
- PDF / 报告摘要。
- 客服知识库。
- 法规条款检索。
- 从大量笔记里找相关内容。
这些场景的共同点是:问题相对明确,答案主要藏在资料里。
RAG 的局限
RAG 的局限来自它的结构。
第一,切块会破坏原文结构。
一个观点的定义、背景、例子、反驳和结论可能被切到不同片段里。系统找到了相似片段,不代表理解了整体逻辑。
第二,相似不等于重要。
向量检索擅长找语义相近的文本,但复杂工作常常需要判断优先级、历史演化、概念关系和任务目标。
第三,RAG 主要解决「看什么资料」,不解决「怎么工作」。
它不能天然处理任务拆解、文件写回、工具调用、质量验收、长期记忆更新和工作流管理。
RAG 和 AI OS 的区别
RAG 是知识检索层。
AI OS 是工作系统。
RAG 关心:模型回答时应该参考哪些资料?
AI OS 关心:AI 如何进入你的文件系统、工具、工作流、项目规则和长期记忆?
所以,RAG 可以成为 AI OS 的一部分,但不能代表 AI OS。
RAG 和 Context Engineering 的关系
RAG 是 Context Engineering 的一种技术手段。
Context Engineering 关心的是 AI 执行任务时应该看到什么。
RAG 负责从资料库里找出一部分内容,放进上下文。
但上下文不只包括资料片段,还包括任务目标、角色、输出标准、历史步骤、工具结果和用户偏好。
RAG 还有必要吗
有必要。
但不要把它当成万能答案。
如果你的目标是问答,RAG 很有效。
如果你的目标是长期写作、研究、项目执行、内容生产或个人 AI OS,RAG 只是其中一层。
更完整的系统还需要:
- 文件系统。
- Markdown。
- Skills。
- MCP。
- Agent 分工。
- 工作流。
- 质量验收。
- 结果回写。
一个判断标准
如果你的需求是「从资料里找到答案」,优先考虑 RAG。
如果你的需求是「让 AI 和我一起长期工作」,就不能只停在 RAG。
知识库的终点不是问答,而是可操作的工作系统。
Substack 相关文章
- 为什么我不再折腾RAG了2025-10-12
- AI知识库的终点2025-10-11
- 真正的AI知识库2026-04-12
- 新书预告:让AI有用起来2025-10-11