RAG+Agent智能平台：通过RAGflow解锁GraphRA知识库的多模态问答新体验

2024-09-13 增加知识库问答搜索模式。2024-09-09 在 Agent 中加入医疗问诊模板。2024-08-22 支持用RAG技术实现从自然语言到SQL语句的转换。2024-08-02 支持 GraphRAG 启发于graphrag和思维导图。2024-07-23 支持解析音频文件。2024-07-08 支持 Agentic RAG: 基于Graph的工作流。

发菜君

899人浏览 · 2024-10-24 11:44:16

发菜君 · 2024-10-24 11:44:16 发布

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

1.RAGflow简介

最近更新：
- 2024-09-13 增加知识库问答搜索模式。
- 2024-09-09 在 Agent 中加入医疗问诊模板。
- 2024-08-22 支持用RAG技术实现从自然语言到SQL语句的转换。
- 2024-08-02 支持 GraphRAG 启发于 graphrag 和思维导图。
- 2024-07-23 支持解析音频文件。
- 2024-07-08 支持 Agentic RAG: 基于 Graph 的工作流。
- 2024-06-27 Q&A 解析方式支持 Markdown 文件和 Docx 文件，支持提取出 Docx 文件中的图片和 Markdown 文件中的表格。
- 2024-05-23 实现 RAPTOR 提供更好的文本检索。
主要功能
- “Quality in, quality out”
  - 基于深度文档理解，能够从各类复杂格式的非结构化数据中提取真知灼见。
  - 真正在无限上下文（token）的场景下快速完成大海捞针测试。
- 基于模板的文本切片
  - 不仅仅是智能，更重要的是可控可解释。
  - 多种文本模板可供选择
- 有理有据、最大程度降低幻觉（hallucination）
  - 文本切片过程可视化，支持手动调整。
  - 有理有据：答案提供关键引用的快照并支持追根溯源。
- 兼容各类异构数据源
  - 支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。
- 自动化的 RAG 工作流
  - 全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统。
  - 大语言模型 LLM 以及向量模型均支持配置。
  - 基于多路召回、融合重排序。
  - 提供易用的 API，可以轻松集成到各类企业系统。
系统架构

2.快速开始

环节要求
- CPU >= 4 核
- RAM >= 16 GB
- Disk >= 50 GB
- Docker >= 24.0.0 & Docker Compose >= v2.26.1
  
  如果你并没有在本机安装 Docker（Windows、Mac，或者 Linux）, 可以参考文档 Install Docker Engine 自行安装。

2.1 启动服务器

vm.max_map_count是Linux内核中的一个重要参数，它定义了一个进程可以拥有的最大内存映射区域数。内存映射区域通常指的是内存映射文件、匿名内存映射等。

性能优化：通过增加vm.max_map_count的值，可以允许应用程序创建更多的内存映射区域，从而提高性能和效率。特别是对于需要频繁访问大量文件或数据的应用程序，这种优化效果尤为明显。
稳定性保障：如果应用程序尝试创建的内存映射区域数超过了系统设置的限制，可能会导致映射失败，进而引发性能问题或直接导致应用程序崩溃。因此，合理设置vm.max_map_count参数有助于保障系统的稳定性。
设置方法
- 临时设置：可以通过sysctl命令临时修改vm.max_map_count的值，但这种更改在系统重启后会失效。例如，要将vm.max_map_count的值设置为262144，可以执行sudo sysctl -w vm.max_map_count=262144命令。
- 永久设置：为了确保在系统重启后vm.max_map_count的值仍然有效，需要将该值写入到/etc/sysctl.conf文件中。添加或更新vm.max_map_count=262144（或其他所需的数值）到该文件中，并保存更改。之后，可以通过执行sudo sysctl -p命令使更改立即生效。

确保 vm.max_map_count 不小于 262144：
如需确认 vm.max_map_count 的大小：
```
$ sysctl vm.max_map_count
```
如果 vm.max_map_count 的值小于 262144，可以进行重置：
```
# 这里我们设为 262144:
$ sudo sysctl -w vm.max_map_count=262144
```
你的改动会在下次系统重启时被重置。如果希望做永久改动，还需要在 /etc/sysctl.conf 文件里把 vm.max_map_count 的值再相应更新一遍：
```
vm.max_map_count=262144
```

克隆仓库：

$ git clone https://github.com/infiniflow/ragflow.git

进入 docker 文件夹，利用提前编译好的 Docker 镜像启动服务器：
```
$ cd ragflow/docker
$ chmod +x ./entrypoint.sh
$ docker compose -f docker-compose-CN.yml up -d
```
请注意，运行上述命令会自动下载 RAGFlow 的开发版本 docker 镜像。如果你想下载并运行特定版本的 docker 镜像，请在 docker/.env 文件中找到 RAGFLOW_VERSION 变量，将其改为对应版本。例如 RAGFLOW_VERSION=v0.11.0，然后运行上述命令。

核心镜像文件大约 9 GB，可能需要一定时间拉取。请耐心等待。

镜像拉在太慢的化参考链接：镜像拉去提速

服务器启动成功后再次确认服务器状态：

$ docker logs -f ragflow-server

出现以下界面提示说明服务器启动成功：

    ____                 ______ __
   / __ \ ____ _ ____ _ / ____// /____  _      __
  / /_/ // __ `// __ `// /_   / // __ \| | /| / /
 / _, _// /_/ // /_/ // __/  / // /_/ /| |/ |/ /
/_/ |_| \__,_/ \__, //_/    /_/ \____/ |__/|__/
              /____/

 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:9380
 * Running on http://x.x.x.x:9380
 INFO:werkzeug:Press CTRL+C to quit

如果您跳过这一步系统确认步骤就登录 RAGFlow，你的浏览器有可能会提示 network abnormal 或 网络异常，因为 RAGFlow 可能并未完全启动成功。

在你的浏览器中输入你的服务器对应的 IP 地址并登录 RAGFlow。

上面这个例子中，您只需输入 http://IP_OF_YOUR_MACHINE 即可：未改动过配置则无需输入端口（默认的 HTTP 服务端口 80）。
在 service_conf.yaml 文件的 user_default_llm 栏配置 LLM factory，并在 API_KEY 栏填写和你选择的大模型相对应的 API key。

详见 llm_api_key_setup。

部署遇到问题解决(🔺)

资源不足问题，ES会占用较多资源建议设置大一些

修改.env文件，根据自己内存资源进行设置，我就设置了70G，es默认吃一半

#Increase or decrease based on the available host memory (in bytes)

MEM_LIMIT=72864896288

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

NVIDIA AI技术专区

NVIDIA官方入驻，分享最新的官方资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

16_Vue3动画(一)之动画的基本使用及animate.css库的使用

Vue3动画的基本使用及animate.css库的使用认识动画在开发中，我们想要给一个组件的显示和消失添加某种过渡动画，可以很好的增加用户体验：React框架本身并没有提供任何动画相关的API，所以在React中使用过渡动画我们需要使用一个第三方库react-transition-group；Vue中为我们提供一些内置组件和对应的API来完成动画，利用它们我们可以方便的实现过渡动画效果；我们来看一