CATEGORY
AI 知识库
当前分类下的技术内容会随着后台发布逐步丰富,支持 SSR 渲染与搜索引擎收录。
AI 知识库15 分钟阅读
从原始文件到高质量 RAG 语料的完整工程指南
PDF 是企业知识库中占比最高、解析难度最大的格式。本文系统拆解文本型、扫描型、多栏布局、表格密集型四类 PDF 的处理路径,涵盖工具选型、坐标重排、OCR 工程化、段落重建与质量评估,帮助团队构建生产级 PDF 数据处理管道。
成都尘轻扬技术团队
AI 知识库19 分钟阅读
构建高质量 RAG 私有知识库:数据清洗的工程实践与方法论
在 LLM+RAG 私有知识库项目中,模型能力往往不是瓶颈,数据质量才是。本文系统梳理从原始语料到入库向量的全链路数据清洗策略,涵盖格式规范化、噪声过滤、语义分块、去重与质量评估,帮助工程团队建立可复用的数据治理流水线。
成都尘轻扬技术团队
AI 知识库21 分钟阅读
在 LLM+RAG 私有化知识库中有效抑制大模型幻觉的工程实践
幻觉是大语言模型企业落地最棘手的挑战之一。本文从工程视角出发,系统梳理私有化 RAG 知识库场景下抑制幻觉的多层次策略,覆盖检索质量优化、Prompt 工程、生成过程控制与忠实度验证四个维度,帮助团队构建真正可信赖的知识库系统。
成都尘轻扬技术团队