Agent 记忆系统架构研究

Executive Summary

记忆系统是 AI Agent 从"无状态工具"升级为"有持续认知能力的智能体"的关键组件。本文系统研究 Agent 记忆系统的架构设计，涵盖记忆分类体系、向量存储与检索机制、记忆压缩与遗忘策略、多 Agent 共享记忆方案，以及主流实现方案的对比分析。

核心发现：

记忆分层是共识——短期记忆、长期记忆、工作记忆的三分法被广泛采用，但不同框架的实现粒度差异显著。
向量存储是长期记忆的核心基础设施，但单纯的向量检索不足以支撑复杂记忆管理，需要结合结构化索引和元数据过滤。
记忆压缩与遗忘是实际落地中的关键挑战——不受控的记忆增长会导致检索质量下降和成本攀升。
多 Agent 共享记忆在协作场景中需求强烈，但面临着权限控制、一致性保证、以及信息过载等难题。
没有一种"最佳"方案——选择取决于 Agent 的任务类型、交互频率、成本预算和延迟要求。

发布日期: 2026-03-14 分类: 方法论关键词: Agent记忆, 向量存储, 记忆压缩, 多Agent, 工作记忆

一、记忆分类体系

1.1 认知科学视角的记忆分类

Agent 记忆系统的设计灵感主要来源于人类记忆的认知模型。心理学将人类记忆分为多个层次：

graph TD HM["🧠 人类记忆模型"] SM["感觉记忆 Sensory Memory
视觉: 图像暂存 ~0.5s
听觉: 声音暂存 ~3s"] STM["短期记忆 / 工作记忆
容量: 7±2 个项目
持续: 数秒到数分钟"] LTM["长期记忆 Long-term Memory"] DECL["陈述性记忆 Declarative"] SEM["语义记忆: 事实和概念知识"] EPIS["情景记忆: 个人经历和事件"] PROC["程序性记忆 Procedural
技能和操作模式"] HM --> SM HM --> STM HM --> LTM LTM --> DECL LTM --> PROC DECL --> SEM DECL --> EPIS

1.2 Agent 记忆分类映射

将人类记忆模型映射到 Agent 系统：

短期记忆（Short-term Memory）：

定义：当前会话或任务周期内的临时信息
载体：LLM 上下文窗口（Context Window）
容量：受限于上下文长度（4K-128K tokens）
生命周期：会话结束或上下文被截断时清除
典型内容：当前对话历史、中间推理步骤、工具调用结果

工作记忆（Working Memory）：

定义：Agent 当前正在"思考"的活跃信息
载体：System Prompt + 动态注入的上下文
容量：比短期记忆更小，聚焦于任务相关子集
生命周期：单次推理（Inference）周期
典型内容：当前目标、已执行步骤、下一步计划、相关参考

长期记忆（Long-term Memory）：

定义：跨会话持久化的知识和经验
载体：外部存储（向量数据库、关系数据库、文件系统）
容量：理论上无限
生命周期：手动管理或自动淘汰
典型内容：用户偏好、历史交互总结、学习到的经验、领域知识

1.3 进一步细分

实际系统中，长期记忆常被进一步细分：

记忆类型	用途	存储方式	检索方式
情景记忆	记录具体交互事件	向量存储 + 时间戳	语义相似度 + 时间过滤
语义记忆	抽象知识和事实	图数据库 / 知识图谱	结构化查询
程序记忆	操作技能和工作流	代码 / 配置文件	名称/标签匹配
实体记忆	用户/实体画像	结构化数据库	ID 查询
关系记忆	实体间的关系	图数据库	图遍历

二、向量存储与检索

2.1 向量嵌入基础

向量存储是 Agent 长期记忆的核心基础设施。其工作原理：

flowchart TD subgraph 索引["📥 索引流程"] T[文本] --> EM[Embedding Model] EM --> HV[高维向量 e.g. 1536-dim] HV --> VDB[(向量数据库存储)] end subgraph 检索["🔍 检索流程"] Q[查询] --> QE[Embedding] QE --> SS[相似度搜索] SS --> TK[Top-K 相关文档] end

主流 Embedding 模型：

模型	维度	特点
OpenAI text-embedding-3-small	1536	性价比高，支持 Matryoshka 降维
OpenAI text-embedding-3-large	3072	高质量，适合精细检索
Cohere embed-v3	1024	支持搜索/聚类/分类多模式
BGE-M3 (BAAI)	1024	开源，支持多语言和多粒度
GTE-Qwen2 (Alibaba)	可变	开源，中文表现优秀

2.2 向量数据库选型

数据库	类型	适用场景	优势
ChromaDB	嵌入式	原型开发、小型 Agent	零配置、内存模式
Qdrant	独立服务	生产级应用	高性能、过滤能力强
Weaviate	独立服务	多模态存储	支持混合搜索
Pinecone	托管服务	快速上线	全托管、免运维
Milvus	分布式	大规模部署	百万级向量、水平扩展
pgvector	PostgreSQL 扩展	已有 PG 的团队	无需引入新组件
FAISS	库（非数据库）	离线/研究场景	Meta 开发、极致性能
LanceDB	嵌入式	边缘部署	基于 Lance 格式、零拷贝

2.3 检索策略

基础检索（Naive Retrieval）：

query_embedding = embed(query)
results = vector_store.similarity_search(query_embedding, top_k=5)

问题：简单的 Top-K 语义相似度检索存在以下不足：

语义相近但信息冗余的文档可能挤占结果位
缺乏时间衰减，旧信息与新信息权重相同
无法处理需要多跳推理的复杂查询

高级检索策略：

（1）混合搜索（Hybrid Search）： 结合向量搜索（语义相似度）和关键词搜索（BM25），取两者之长。

final_score = α × vector_score + (1-α) × bm25_score

典型配置：α = 0.7（语义为主，关键词为辅）

（2）最大边际相关性（MMR）： 在相关性和多样性之间取得平衡，避免检索结果过于同质化。

MMR = λ × sim(doc, query) - (1-λ) × max(sim(doc, selected_docs))

（3）时间衰减加权： 近期记忆权重更高，模拟人类的近因效应。

adjusted_score = base_score × exp(-λ × age_in_days)

（4）元数据过滤： 结合结构化过滤条件缩小搜索范围。

results = vector_store.search(
    query_embedding,
    filter={"user_id": "u123", "topic": "project_alpha"},
    top_k=5
)

（5）多轮检索（Multi-hop Retrieval）： 对复杂问题进行迭代检索：

初始检索获取第一层信息
从第一层信息中提取新线索
用新线索进行二次检索
综合多轮结果生成回答

2.4 检索质量优化

Chunking 策略： 文档分块方式直接影响检索质量。

策略	描述	优缺点
固定大小分块	按 token/字符数切分	简单但可能切断语义
递归分块	按段落→句子递归切分	保持语义完整性
语义分块	按语义边界动态切分	质量高但计算成本大
滑动窗口	相邻块有重叠	保证边界信息不丢失

推荐：递归分块 + 20% 滑动窗口重叠，chunk 大小 512-1024 tokens。

Reranking： 对初始检索结果进行二次排序，使用专门的 Reranker 模型。

candidates = vector_search(query, top_k=20)    # 先粗排
final_results = reranker(query, candidates, top_k=5)  # 再精排

常用 Reranker：Cohere Rerank、BGE-Reranker、Cross-Encoder

三、记忆压缩与遗忘

3.1 为什么需要记忆压缩

不受控的记忆增长会带来严重问题：

检索质量下降：相关记忆被淹没在大量无关记忆中
成本攀升：向量存储和 Embedding 计算成本线性增长
上下文溢出：检索到的过多记忆无法全部放入上下文窗口
隐私风险：过时或敏感信息长期保留

3.2 记忆压缩策略

（1）摘要压缩（Summarization）：

将多条相关记忆合并为一条摘要。

原始记忆:
- "用户说他喜欢黑色产品" (Day 1)
- "用户购买了黑色键盘" (Day 3)
- "用户评价黑色鼠标很好用" (Day 7)

压缩后:
- "用户偏好黑色外设产品，曾购买黑色键盘和鼠标，对黑色鼠标评价积极"

触发条件：

同一主题的记忆积累超过阈值（如 5 条）
定期批量处理（如每周）
存储空间达到上限

（2）分层压缩（Tiered Compression）：

flowchart TD L0["Level 0: 原始记忆
完整细节"] -->|超过 7 天| L1["Level 1: 详细摘要
保留关键细节"] L1 -->|超过 30 天| L2["Level 2: 概要摘要
只保留结论"] L2 -->|超过 90 天| L3["Level 3: 归档 / 删除"]

（3）重要性加权压缩：

根据记忆的重要性评分决定压缩粒度。

重要性评分因素：

访问频率：经常被检索的记忆权重更高
用户反馈：用户明确确认的信息权重更高
时效性：新信息初始权重高
唯一性：包含独特信息的记忆权重更高

importance_score = α × access_freq + β × user_feedback + γ × uniqueness - δ × age

3.3 记忆遗忘策略

（1）时间衰减遗忘（Time Decay）：

模拟人类记忆的自然衰减。

retention_probability = base_rate × e^(-decay_rate × time)

参数调优：

base_rate: 初始保留率（通常 0.9-0.99）
decay_rate: 衰减速率（根据记忆类型调整）
- 事实性记忆：慢衰减（λ = 0.001/天）
- 会话上下文：快衰减（λ = 0.1/天）
- 用户偏好：极慢衰减（λ = 0.0001/天）

（2）容量限制遗忘（Capacity-based）：

设定存储上限，超出时淘汰最不重要的记忆。

当 memory_count > max_capacity:
    candidates = sort_by_importance(all_memories)
    to_forget = candidates[-(memory_count - max_capacity):]
    archive_or_delete(to_forget)

淘汰策略：

LRU（Least Recently Used）：淘汰最久未被访问的
LFU（Least Frequently Used）：淘汰访问次数最少的
LIFO（Last In First Out）：淘汰最新的（适用于临时记忆）
混合策略：综合考虑时间、频率和重要性

（3）主动遗忘（Intentional Forgetting）：

用户请求删除特定信息（隐私合规，如 GDPR "被遗忘权"）
检测到矛盾信息时，丢弃可信度较低的版本
知识过期时（如产品下架），主动清理相关记忆

3.4 记忆一致性管理

当记忆之间出现矛盾时，需要解决冲突：

冲突检测：

new_memory: "用户住在北京"
existing: "用户住在上海"
→ 检测到地理冲突

解决策略：

时间优先：最新信息覆盖旧信息
来源优先：高可信度来源覆盖低可信度来源
显式确认：询问用户确认正确信息
版本保留：保留所有版本，标注时间戳，检索时取最新

四、多 Agent 共享记忆

4.1 共享记忆的需求场景

团队协作：多个 Agent 协同完成复杂任务，需要共享上下文
专家系统：不同领域的 Agent 共享通用知识库
用户画像：多个 Agent 服务同一用户，共享用户偏好和历史
知识传承：新 Agent 启动时继承已有知识

4.2 共享记忆架构模式

模式 1：集中式共享存储

graph TD A["Agent A"] --> S["Shared Memory Store
Vector DB + Metadata"] B["Agent B"] --> S C["Agent C"] --> S

优势：实现简单，数据一致性好劣势：单点瓶颈，权限控制粒度粗

模式 2：分层记忆池

graph TD G["🌐 Global Memory Pool
所有 Agent 共享的公共知识"] T["👥 Team Memory Pool (Agent A + B)
特定团队共享的上下文"] P1["🔒 Agent A Private
Agent 私有记忆"] P2["🔒 Agent B Private
Agent 私有记忆"] G --> T T --> P1 T --> P2

优势：权限分层，减少信息过载劣势：需要设计清晰的分层策略

模式 3：联邦记忆

graph LR A["Agent A
Local Memory"] <-->|"Sync"| B["Agent B
Local Memory"]

每个 Agent 维护本地记忆，通过同步协议共享必要信息。

优势：去中心化，隐私保护好劣势：一致性保证困难，同步开销大

模式 4：事件驱动记忆流

graph LR A["Agent A"] -->|"Publish"| EB["Event Bus /
Message Queue"] EB -->|"Subscribe"| B["Agent B"]

Agent 通过发布-订阅机制共享记忆事件。

优势：实时性强，解耦性好劣势：需要消息基础设施，历史事件查询困难

4.3 共享记忆的关键挑战

权限控制：

哪些记忆可以共享？
哪些 Agent 可以访问？
读/写权限如何区分？

推荐方案：基于标签的访问控制

{
  "content": "用户的项目进度偏好",
  "tags": ["user_preference", "project_alpha"],
  "access_level": "team",
  "owner": "agent_a",
  "readable_by": ["agent_b", "agent_c"],
  "writable_by": ["agent_a"]
}

信息过载：

共享记忆池可能包含大量无关信息
需要智能过滤机制，只检索与当前 Agent 任务相关的记忆

解决方案：

基于 Agent 角色的过滤（只看与自己职责相关的记忆）
基于任务的动态订阅（任务期间订阅相关频道）
重要性阈值过滤（只共享高重要性记忆）

一致性与冲突：

多个 Agent 可能对同一事实产生不同记忆
需要冲突检测和解决机制

解决方案：

分布式锁（写入时锁定）
向量时钟（追踪因果关系）
版本控制（保留所有版本，标记来源）

五、实现方案对比

5.1 主流框架对比

框架	记忆模型	存储后端	特点	适用场景
LangChain Memory	对话缓冲/摘要/向量	多种	灵活、生态丰富	通用 Agent 开发
Mem0	多层记忆	向量 + 图	自动提取和管理记忆	个性化 Agent
MemGPT / Letta	OS 风格分页内存	向量 + 关系	主内存/外部内存分离	长对话、复杂任务
AutoGen	会话历史	内存 + 文件	多 Agent 对话原生支持	多 Agent 协作
CrewAI	共享知识库	向量存储	角色驱动的记忆访问	团队协作 Agent
Cognee	认知图谱	图 + 向量	知识图谱构建	知识密集型 Agent
Zep	会话记忆服务	专用存储	生产级、自动摘要	SaaS 集成

5.2 深度分析：Mem0

Mem0（原 Embedchain）是一个专注于 Agent 记忆管理的框架。

核心设计：

自动记忆提取：从对话中自动识别值得记忆的信息
智能更新：检测新信息是否与已有记忆冲突，自动合并或更新
多级记忆：支持 User-level、Session-level、Agent-level 三级记忆
混合检索：向量搜索 + 关键词搜索 + 图关系

记忆生命周期：

flowchart LR DI[对话输入] --> IE[信息提取] IE --> RJ[相关性判断] RJ --> CD[冲突检测] CD --> SU[存储/更新] SU --> RT[检索] RT --> IC[注入上下文]

优势：开箱即用的智能记忆管理，自动处理压缩和冲突劣势：依赖其特定的数据模型，灵活性受限

5.3 深度分析：MemGPT / Letta

MemGPT（现已更名为 Letta）借鉴操作系统的设计理念。

核心设计：

分页内存：将上下文窗口视为主内存（RAM），向量存储视为磁盘
函数调用管理：Agent 通过函数调用主动管理记忆的载入和卸载
核心内存区：始终保留在上下文中的关键信息（如用户画像）
递归摘要：将溢出的对话历史递归摘要后存入外部存储

关键机制：

# MemGPT 风格的记忆管理
core_memory = {  # 始终在上下文中
    "human": "用户是前端开发者，偏好 React",
    "agent": "我是技术顾问，风格简洁直接"
}

# 当对话历史超过上下文限制时：
# 1. 将旧对话摘要
# 2. 存入 recall_storage（向量存储）
# 3. 只保留最近对话 + 核心记忆
# 4. Agent 可主动检索 recall_storage

优势：优雅的内存管理模型，适合长对话场景劣势：实现复杂度高，需要 Agent 学会"管理自己的记忆"

5.4 自建方案设计建议

如果框架无法满足需求，自建记忆系统的推荐架构：

graph TD AR["🏗️ Agent Runtime"] MM["Memory Manager"] EX["Memory Extractor
从对话中提取记忆"] CO["Memory Compressor
定期压缩摘要"] RE["Memory Retriever
按需检索相关记忆"] FO["Memory Forgetter
过期/冲突清理"] SL["Storage Layer"] WM["Working Memory
In-context System Prompt"] ST["Short-term
Conversation Buffer"] LS["Long-term Semantic
Vector Store Qdrant"] LST["Long-term Structured
PostgreSQL"] GM["Graph Memory
Neo4j / FalkorDB"] AR --> MM MM --> EX MM --> CO MM --> RE MM --> FO AR --> SL SL --> WM SL --> ST SL --> LS SL --> LST SL --> GM

关键设计决策：

记忆提取时机：
- 实时提取：每次对话后立即提取（延迟高但即时性好）
- 批量提取：定期批量处理（效率高但可能遗漏）
记忆注入策略：
- 拉取式（Pull）：Agent 在需要时主动检索
- 推送式（Push）：系统自动将相关记忆注入上下文
- 混合式：系统推送高相关记忆，Agent 可主动补充
存储粒度：
- 粒度过细：存储量大、检索噪音多
- 粒度过粗：信息损失、检索精度低
- 推荐：按语义单元存储，每个记忆 1-3 句话

六、实践建议

6.1 记忆系统设计 Checklist

□ 记忆分类：是否明确了短期/长期/工作记忆的边界？
□ 存储选型：向量数据库是否匹配预期规模和延迟要求？
□ Embedding 策略：是否选择了适合目标语言和领域的 Embedding 模型？
□ 分块策略：文档分块是否保持了语义完整性？
□ 检索策略：是否实现了混合搜索和 Reranking？
□ 压缩策略：是否定义了记忆压缩的触发条件和方法？
□ 遗忘策略：是否设置了存储上限和时间衰减？
□ 冲突处理：是否定义了矛盾记忆的检测和解决机制？
□ 隐私合规：是否支持用户记忆删除请求？
□ 监控告警：是否监控记忆存储量、检索质量和成本？

6.2 性能优化建议

检索延迟优化：

使用 HNSW 索引（而非暴力搜索）
对向量降维（Matryoshka Embeddings）
实现多级缓存（热门查询缓存）
异步预取（预测可能需要的记忆）

成本优化：

对低频记忆使用冷存储（如 S3 + 延迟加载）
使用 Matryoshka Embeddings 支持动态维度
定期清理过期和重复记忆
使用更小的 Embedding 模型（如 512 维而非 3072 维）

质量优化：

Reranking 对检索结果精排
查询改写（Query Rewriting）提高检索精度
反馈循环（用户标记不相关结果，改进检索）

6.3 常见陷阱

陷阱 1：记忆过载

表现：检索结果中包含大量无关信息
原因：未设置存储上限，记忆无限增长
解决：实施定期压缩和淘汰策略

陷阱 2：记忆孤岛

表现：不同会话的记忆无法互相检索
原因：记忆按会话隔离，缺乏跨会话索引
解决：实现全局记忆索引，支持跨会话检索

陷阱 3：幻觉记忆

表现：Agent "记住"了从未发生的事
原因：记忆提取时产生了幻觉
解决：对提取的记忆进行验证（如要求引用源对话）

陷阱 4：记忆固化

表现：旧的错误记忆无法被纠正
原因：记忆一旦写入就不可变
解决：实现记忆更新机制，支持版本覆盖

陷阱 5：隐私泄露

表现：用户的敏感信息被共享给其他 Agent 或用户
原因：缺乏访问控制和敏感信息检测
解决：实施标签化访问控制 + 敏感信息检测和脱敏

七、总结

Agent 记忆系统的设计是一个权衡的艺术，需要在以下维度之间找到平衡：

完整性 vs 效率：记忆越多越完整，但检索和存储成本越高
准确性 vs 自动化：自动提取记忆效率高，但可能产生错误
个性化 vs 通用性：个性化记忆提升体验，但增加系统复杂度
隐私 vs 共享：共享记忆提升协作能力，但增加隐私风险

关键设计原则：

从简单开始，先实现基础的记忆存储和检索
根据实际使用数据驱动优化（不要过度设计）
将记忆系统视为独立的服务/模块，与 Agent 逻辑解耦
重视监控和可观测性，及时发现记忆质量问题

📚 参考资料

MemGPT: Towards LLMs as Operating Systems — Charles Packer et al., 2023 https://arxiv.org/abs/2310.08540 提出操作系统风格的 LLM 内存管理架构，Letta 框架的前身
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory — Prateek Chhikari et al., 2024 https://arxiv.org/abs/2409.05464 Mem0 记忆管理框架的技术论文，涵盖自动记忆提取和管理方法
A Survey on the Memory Mechanism of Large Language Model based Agents — Zeyu Zhang et al., 2024 https://arxiv.org/abs/2404.13501 全面综述 LLM Agent 的记忆机制，覆盖分类、检索、遗忘等各个方面
Cognitive Architectures for Language Agents (CoALA) — Theodore Sumers et al., 2023 https://arxiv.org/abs/2309.02427 提出 Agent 认知架构的统一框架，包含记忆系统的理论基础
LangChain Memory Documentation https://python.langchain.com/docs/modules/memory/ LangChain 框架的记忆模块文档，包含多种记忆实现的 API 和示例

本报告为 Tech-Researcher 系列方法论报告之一。如有反馈或建议，欢迎通过 GitHub Issues 提出。