【完结14章】RAG全栈技术从基础到精通 ,打造高精准AI应用
RAG(Retrieval-Augmented Generation)全栈技术是一种结合检索和生成的技术,主要用于让AI在回答问题或生成内容时,能够更好地利用外部知识库,而不是完全依赖于自身预训练的知识。RAG通过在生成内容之前先从知识库中检索相关信息,从而提升生成内容的准确性和相关性。
一、RAG的工作原理
RAG的工作可以分为三个阶段:
1、检索(Retrieval):用户提出问题后,RAG会将问题转换成一个“向量”,然后在知识库中查找最相关的向量。知识库中的内容会被提前处理成向量,并存储在向量数据库中。数据库可以根据语义理解来检索数据,而不是单纯靠关键词匹配。
2、增强(Augmented):找到相关资料后,RAG会将资料和用户的问题组合在一起,形成一个新的输入,送给大模型。这一步相当于给AI提供了一个“提示”,使其在回答问题时有更具体的参考。
3、生成(Generation):最后,AI根据组合后的输入生成答案。因为有知识库的支持,生成的内容会更准确、更有针对性。
二、RAG的应用场景和优势
RAG技术广泛应用于各种需要准确和相关性高的场景,如问答系统、内容生成、知识图谱构建等。其优势包括:
1、提高准确性:通过检索知识库中的相关信息,RAG生成的内容更有依据,减少了幻觉问题。
2、减少模型更新和推理成本:知识库可以随时更新,减少了AI模型频繁更新的需求。
3、增强生成内容的依据:由于知识库中的资料是经过验证的,生成的内容更有依据和可信度。
三、RAG的发展历程和技术演进
RAG技术的发展经历了几个阶段:
1、Naïve RAG:基于关键词的检索和静态数据集,简单易实现,但缺乏上下文感知和可扩展性。
2、Advanced RAG:引入了密集向量搜索、神经排序算法和多跳检索机制,提高了检索精度和适应复杂查询的能力,但计算开销大且可扩展性有限。
四、RAG与其他技术的结合应用
RAG可以与多模态技术结合,形成多模态RAG系统。多模态RAG系统通过跨模态对齐和推理,能够在不同模态之间进行有效整合,提升系统的整体性能和应用范围。多模态RAG系统的核心部分包括检索策略、融合机制和增强技术等。
五、企业大规模落地 RAG 核心问题
经过了很长时间对 RAG 的研发,总结出了企业 RAG 落地的关键点,分别是效果、性能和成本。
效果:今天很多企业并没有大规模的落地 RAG,或者说是在一些关键场景上没有去使用 RAG,是因为企业担心用了以后,会因为效果问题,影响他们核心场景的业务。所以效果问题是现在 RAG 落地最关键的因素。
性能:在 RAG 链路里很多环节是需要使用大模型的,比如说向量化、文档解析,最后大模型的生成、 大模型 Agent 等。这样整个链路多次调用大模型,会导致离线和在线性能都会有不同程度的下降。比如说像 GraphRAG ,一个30K 的文档需要将近1个小时时间才能把数据处理好,这样的话很难在一个生产环境中去落地。
成本:相对于其他的应用来说,RAG 应用需要去多次调用大模型,而大模型背后就是 GPU , 但 GPU 资源是紧缺和昂贵的,这就不可避免的导致这类应用比其他应用的成本高很多,所以很多客户无法接受这个成本。
- 请尽量让自己的回复能够对别人有帮助
- 支持 Markdown 格式, **粗体**、~~删除线~~、
`单行代码`
- 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
- 图片支持拖拽、截图粘贴等方式上传