算法逻辑图
RAG检索增强生成与LLM上下文注意力机制的技术架构与数据流
处理流程
1
Query编码
2
向量检索
3
重排序
4
上下文构建
5
注意力计算
6
结果生成
Input
Output
算法逻辑图
知识库构建流程
01
文档输入
国家标准规范、企业优秀范本、企业制度文档
↓
02
文档解析
多格式解析、OCR识别扫描件、数据清洗
↓
03
向量化处理
文本分块、Embedding转换、特征提取
↓
04
存入知识库
向量数据库存储、建立索引、分类管理
AI CORE
大模型 (LLM)
理解问题
解析用户意图与上下文
检索增强
RAG检索相关知识
生成回答
基于注意力生成结果
AGENT
工具调用
流程控制
结果整合
用户使用流程
A1
用户提问
提交文档纠错、请求生成框架、规范问答
↓
A2
RAG检索
向量相似度匹配、关键词搜索、上下文增强
↓
A3
大模型处理
理解意图、分析内容、生成结果
↓
A4
结果返回
格式化输出、引用原文、提供建议
纠错场景工作流程
完整业务流程
01
上传施工组织设计文档
用户通过浏览器上传,支持 doc, docx, ppt, txt, pdf 格式
用户操作
↓
02
系统解析文档
文本文档直接提取、Office文档专用解析、PDF调用OCR识别
系统处理
↓
03
RAG检索相关国家标准
向量检索相似度匹配、关键词检索规范条文、混合检索提高准确率
AI处理
↓
04
大模型审计文档内容
逐条比对规范、识别问题文本、生成改进建议
AI审计
↓
05
生成纠错报告
标注问题位置、引用规范原文、提供改进建议
报告生成
↓
06
用户查看报告
逐条审核问题和建议,AI不阻拦用户操作,可选择性采纳
用户决策
↓
07
用户归档
系统标记:已修改X处、未修改Y处需注意,引用具体规范条款
流程完成
系统架构图
用户层
用户浏览器 (Chrome内核)
BS架构 · Chrome内核浏览器访问
↕
接入层
Nginx 反向代理
HTTPS加密传输 · 负载均衡 · 静态资源服务
↕
前端
前端应用
Vue3 / React
后端
后端API
FastAPI / Spring Boot
存储
文件服务
MinIO / 本地存储
↕
关系数据库
MySQL / PostgreSQL
业务数据、用户、权限、日志
缓存
Redis
会话管理、限流
向量数据库
Milvus / Qdrant
RAG知识库存储
↕
AI能力层
大模型服务 (LLM)
方案A:对接集团算力中心 & 大模型 API
方案B:本地部署 Llama / Qwen / ChatGLM + vLLM / Ollama
方案B:本地部署 Llama / Qwen / ChatGLM + vLLM / Ollama
RAG 检索流程
01 - Query编码与向量化
IN
用户Query
"机械挖土至持力层距离要求"
→
EM
Embedding模型
BGE / M3E → vector[768]
→
OUT
Query向量
[0.12, -0.34, ..., 0.56]
02 - 向量相似度检索
Chunk_001
"机械挖土至距持力层200-300mm时..."
0.92
Chunk_002
"人工开挖前应检查基底土质..."
0.87
Chunk_003
"地基承载力特征值应通过..."
0.81
Chunk_004
"钢筋混凝土保护层厚度..."
0.45
HNSW索引
分层可导航小世界图
TopK筛选
取相似度前K个结果
阈值过滤
≥ 0.7 过滤低相似度
03 - 重排序 (Re-ranking)
初始检索结果
#1
Chunk_001 (0.92)
#2
Chunk_002 (0.87)
#3
Chunk_003 (0.81)
Cross-Encoder
bge-reranker-v2-m3
Query-Doc配对
精细打分
重新排序
重排序结果
#1
Chunk_002 (0.95)
↑
#2
Chunk_001 (0.91)
↓
#3
Chunk_003 (0.78)
LLM 上下文注意力机制
上下文窗口构建
System Prompt
~500 tokens
你是一个施工组织设计审查专家,依据国家标准规范审查文档内容...
Retrieved Context
~2000 tokens
Chunk_002
GB50202-2018 第4.2.3条:机械挖土至距持力层200-300mm时应改人工开挖...
Chunk_001
地基基础工程施工前,应具备岩土工程勘察资料...
User Query
~100 tokens
请审查以下施工组织设计文档中的机械挖土相关内容...
多头注意力计算
Query
挖土
持力层
200-300
mm
挖土
0.85
0.72
0.45
0.12
持力层
0.78
0.91
0.68
0.35
200-300
0.42
0.65
0.88
0.75
mm
0.15
0.38
0.72
0.82
高注意力 (>0.7)
中注意力 (0.3-0.7)
低注意力 (<0.3)
Head 1
语法关系
Head 2
数值关联
Head 3
专业术语
Head 4
规范引用
结果生成与输出
1
上下文融合
将检索结果与Query拼接,构建完整上下文
→
2
自回归生成
基于注意力权重,逐token生成回答
→
3
引用标注
标注引用来源文档和具体条款
→
4
格式化输出
生成结构化纠错报告
关键技术参数
Embedding维度
768 / 1024
TopK检索数量
5 ~ 10
相似度阈值
≥ 0.7
上下文窗口
4K / 8K / 32K
注意力头数
32 / 64
温度参数
0.1 ~ 0.3