一种支持4种多模态RAG技术的引擎：VARAG

是一种视觉优先的RAG引擎，强调基于视觉的检索技术。它通过视觉语言模型集成视觉和文本数据，增强了传统的检索增强生成 (RAG) 系统。VARAG支持多种检索技术，针对不同用例进行了优化，包括文本、图像和多模式文档检索。简单 RAG（检索增强生成）是一种高效而直接的方法，用于从文档中提取文本并将其输入到检索管道中。VARAG通过整合了光学字符识别 (OCR)，从而可以处理和索引扫描的PDF或图像。V

爱喝白开水a

949人浏览 · 2024-10-01 13:53:04

爱喝白开水a · 2024-10-01 13:53:04 发布

VARAG（视觉增强检索和生成）：是一种视觉优先的RAG引擎，强调基于视觉的检索技术。它通过视觉语言模型集成视觉和文本数据，增强了传统的检索增强生成 (RAG) 系统。

🚀 支持的检索技术

VARAG支持多种检索技术，针对不同用例进行了优化，包括文本、图像和多模式文档检索。以下是支持的主要技术：

简单RAG（带OCR）

简单 RAG（检索增强生成）是一种高效而直接的方法，用于从文档中提取文本并将其输入到检索管道中。VARAG通过Docling 整合了光学字符识别 (OCR)，从而可以处理和索引扫描的PDF或图像。

Docling在Markdown和JSON格式下的输出示例

VARAG提取和索引文本后，可以将查询与文档中的相关段落进行匹配，为生成基于提取信息的响应提供坚实的基础。此技术非常适合文本密集的文档，例如扫描的书籍、合同和研究论文，并且可以与大型语言模型 (LLM) 配对以生成上下文感知的输出。

Docling技术报告 
https://arxiv.org/pdf/2408.09869``https://github.com/DS4SD/docling

视觉RAG

Vision RAG 通过整合视觉信息检索来扩展传统的 RAG 技术，从而弥合文本和图像之间的差距。使用强大的跨模态嵌入模型（如 JinaCLIP（由 Jina AI 开发的 CLIP 的变体）），文本和图像都被编码到共享向量空间中。

jina-clip-v1的训练范式，共同优化文本-图像和文本-文本匹配

这允许跨不同模态进行相似性搜索，这意味着可以同时查询图像和文本。Vision RAG 特别适用于文档分析任务，其中视觉组件（例如，图形、图表、图像）与文本内容同样重要。它对于图像字幕或生成产品描述等任务也很有效，在这些任务中，理解和关联文本与视觉元素至关重要。

ColPali RAG

ColPali RAG代表了一种尖端方法，它通过直接将文档页面嵌入为图像而不是将其转换为文本来简化传统的检索流程。

该方法利用了Google团队的视觉语言模型 (VLM) PaliGemma，它将整个文档页面编码为矢量嵌入，将页面布局和视觉元素视为检索过程的一部分。ColPali RAG使用受ColBERT（Column BERT）启发的后期交互机制，通过启用用户查询和文档patches之间的token-level匹配来增强检索。这种方法确保了高检索准确性，同时还保持了合理的索引和查询速度。它对于富含视觉效果的文档特别有益，例如信息图表、表格和复杂布局，而传统的基于文本的检索方法很难处理这些文档。

ColPali论文: https://arxiv.org/abs/2407.01449
ColPali博客: https://huggingface.co/blog/manu/colpali
ColPali实战: https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb

混合ColPali RAG

混合ColPali RAG 结合了图像嵌入和ColPali的后期交互机制的优势，进一步提高了检索性能。

系统首先使用图像嵌入（例如来自 JinaCLIP 等模型）执行粗略检索步骤，以检索前 k 个相关文档页面。
然后，在第二遍中，系统使用 ColPali 后期交互机制对这 k 个页面重新排序，以根据视觉和文本信息确定最终最相关的页面集。

当文档包含复杂的视觉效果和详细的文本时，这种混合方法特别有用，允许系统利用这两种内容类型进行高度准确的文档检索。

🚀 开始使用VARAG

每种视觉RAG技术都被构建为一个类，抽象所有组件并提供以下方法：
在这里插入图片描述

为什么要抽象这么多？

VARAG最初打算快速测试和评估不同的基于视觉的 RAG（检索增强生成）系统，以确定哪一个最适合我的用例，最终演化成了一个框架或库。

这种抽象旨在简化尝试不同 RAG 范例的过程，而不会使组件之间的兼容性复杂化。为了使事情变得简单，选择 LanceDB作为向量存储，因为它易于使用且可定制性高。

VARAG提供了4种视觉RAG技术的测试脚本，可以快速尝试与评测

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

NVIDIA AI技术专区

NVIDIA官方入驻，分享最新的官方资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

16_Vue3动画(一)之动画的基本使用及animate.css库的使用

Vue3动画的基本使用及animate.css库的使用认识动画在开发中，我们想要给一个组件的显示和消失添加某种过渡动画，可以很好的增加用户体验：React框架本身并没有提供任何动画相关的API，所以在React中使用过渡动画我们需要使用一个第三方库react-transition-group；Vue中为我们提供一些内置组件和对应的API来完成动画，利用它们我们可以方便的实现过渡动画效果；我们来看一