算法逻辑图

RAG检索增强生成与LLM上下文注意力机制的技术架构与数据流

处理流程

1
Query编码
2
向量检索
3
重排序
4
上下文构建
5
注意力计算
6
结果生成
Input
Output

算法逻辑图

知识库构建流程
01
文档输入
国家标准规范、企业优秀范本、企业制度文档
02
文档解析
多格式解析、OCR识别扫描件、数据清洗
03
向量化处理
文本分块、Embedding转换、特征提取
04
存入知识库
向量数据库存储、建立索引、分类管理
AI CORE
大模型 (LLM)
理解问题
解析用户意图与上下文
检索增强
RAG检索相关知识
生成回答
基于注意力生成结果
AGENT
工具调用
流程控制
结果整合
用户使用流程
A1
用户提问
提交文档纠错、请求生成框架、规范问答
A2
RAG检索
向量相似度匹配、关键词搜索、上下文增强
A3
大模型处理
理解意图、分析内容、生成结果
A4
结果返回
格式化输出、引用原文、提供建议

纠错场景工作流程

完整业务流程
01
上传施工组织设计文档
用户通过浏览器上传,支持 doc, docx, ppt, txt, pdf 格式
用户操作
02
系统解析文档
文本文档直接提取、Office文档专用解析、PDF调用OCR识别
系统处理
03
RAG检索相关国家标准
向量检索相似度匹配、关键词检索规范条文、混合检索提高准确率
AI处理
04
大模型审计文档内容
逐条比对规范、识别问题文本、生成改进建议
AI审计
05
生成纠错报告
标注问题位置、引用规范原文、提供改进建议
报告生成
06
用户查看报告
逐条审核问题和建议,AI不阻拦用户操作,可选择性采纳
用户决策
07
用户归档
系统标记:已修改X处、未修改Y处需注意,引用具体规范条款
流程完成

系统架构图

用户层
用户浏览器 (Chrome内核)
BS架构 · Chrome内核浏览器访问
接入层
Nginx 反向代理
HTTPS加密传输 · 负载均衡 · 静态资源服务
前端
前端应用
Vue3 / React
后端
后端API
FastAPI / Spring Boot
存储
文件服务
MinIO / 本地存储
关系数据库
MySQL / PostgreSQL
业务数据、用户、权限、日志
缓存
Redis
会话管理、限流
向量数据库
Milvus / Qdrant
RAG知识库存储
AI能力层
大模型服务 (LLM)
方案A:对接集团算力中心 & 大模型 API
方案B:本地部署 Llama / Qwen / ChatGLM + vLLM / Ollama

RAG 检索流程

01 - Query编码与向量化
IN
用户Query
"机械挖土至持力层距离要求"
EM
Embedding模型
BGE / M3E → vector[768]
OUT
Query向量
[0.12, -0.34, ..., 0.56]
02 - 向量相似度检索
Chunk_001
"机械挖土至距持力层200-300mm时..."
0.92
Chunk_002
"人工开挖前应检查基底土质..."
0.87
Chunk_003
"地基承载力特征值应通过..."
0.81
Chunk_004
"钢筋混凝土保护层厚度..."
0.45
HNSW索引
分层可导航小世界图
TopK筛选
取相似度前K个结果
阈值过滤
≥ 0.7 过滤低相似度
03 - 重排序 (Re-ranking)
初始检索结果
#1
Chunk_001 (0.92)
#2
Chunk_002 (0.87)
#3
Chunk_003 (0.81)
Cross-Encoder
bge-reranker-v2-m3
Query-Doc配对
精细打分
重新排序
重排序结果
#1
Chunk_002 (0.95)
#2
Chunk_001 (0.91)
#3
Chunk_003 (0.78)

LLM 上下文注意力机制

上下文窗口构建
System Prompt
~500 tokens
你是一个施工组织设计审查专家,依据国家标准规范审查文档内容...
Retrieved Context
~2000 tokens
Chunk_002
GB50202-2018 第4.2.3条:机械挖土至距持力层200-300mm时应改人工开挖...
Chunk_001
地基基础工程施工前,应具备岩土工程勘察资料...
User Query
~100 tokens
请审查以下施工组织设计文档中的机械挖土相关内容...
多头注意力计算
Query
挖土
持力层
200-300
mm
挖土
0.85
0.72
0.45
0.12
持力层
0.78
0.91
0.68
0.35
200-300
0.42
0.65
0.88
0.75
mm
0.15
0.38
0.72
0.82
高注意力 (>0.7)
中注意力 (0.3-0.7)
低注意力 (<0.3)
Head 1
语法关系
Head 2
数值关联
Head 3
专业术语
Head 4
规范引用
结果生成与输出
1
上下文融合
将检索结果与Query拼接,构建完整上下文
2
自回归生成
基于注意力权重,逐token生成回答
3
引用标注
标注引用来源文档和具体条款
4
格式化输出
生成结构化纠错报告

关键技术参数

Embedding维度
768 / 1024
TopK检索数量
5 ~ 10
相似度阈值
≥ 0.7
上下文窗口
4K / 8K / 32K
注意力头数
32 / 64
温度参数
0.1 ~ 0.3