PaddleOCR-VL PDF之神

PDF之神,大模型时代智能文档处理引擎,是文档的“照相机”,更是信息的“翻译官”,能将杂乱的版面直接“翻译”成规整的结构化数据。

10月16日,百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL,该模型在最新OmniBenchDoc V1.5榜单中,取得综合性能全球第一成绩,是全球唯一突破90分的模型。在文档解析四大核心能力纬度上,PaddleOCR-VL实现全线SOTA,刷新全球OCR VL模型性能天花板。

作为文心4.5衍生模型,PaddleOCR-VL基于ERNIE-4.5-0.3B语言模型训练而来,参数仅0.9B,轻量高效,支持100+种语言文字、手写文字的识别、竖版文字识别、表格中公式识别等多种功能。

  • Github: https://github.com/PaddlePaddle/PaddleOCR
  • Huggingface Models & Online Demo: https://huggingface.co/PaddlePaddle
    在这里插入图片描述

亮点直击

PaddleOCR-VL 旨在应对当前文档处理领域的核心挑战,提供一套兼具高性能与资源高效性的多模态文档解析方案。其主要创新包括:

  1. 高性能、资源高效的多模态文档解析:Paddle团队提出了一种全新的混合式架构——PaddleOCR-VL,将轻量而强大的视觉语言识别模型 PaddleOCR-VL-0.9B 与高精度版面分析模型 PP-DocLayoutV2 深度融合。该设计在保证推理效率的同时,支持跨多种实际应用场景的高精度文档解析,实现了性能与可扩展性的兼顾。
  2. 复杂文档内容的高级解析能力:针对手写文本、历史档案、复杂表格及数学公式等高难度内容类型,我们对系统进行了专项优化。该模型能够在结构复杂、内容异构的文档中保持卓越的识别精度,有效提升复杂场景下的信息提取能力。
  3. 卓越的图表理解与结构化转换能力:与传统的 OCR 模型不同,PaddleOCR-VL 独具匠心地将非结构化的可视化图表数据(例如条形图、折线图和饼图)直接转换为结构化表格格式。这一突破性技术连接了可视化数据和机器可读数据,从而支持自动化分析和信息检索。
  4. 全面的多语种文本识别支持: PaddleOCR-VL 的识别能力扩展至 100 多种语言,覆盖全球主要语种。这一广泛的语言覆盖大幅提升了模型在多语言与全球化文档处理场景下的适用性。
    在这里插入图片描述

技术创新

PaddleOCR-VL 总体架构图
PaddleOCR-VL 将复杂的文档解析任务拆解为一个两阶段处理流程(two-stage pipeline)。

  • 在第一阶段,PP-DocLayoutV2 负责执行版面分析(layout analysis),对文档中的语义区域进行定位,并预测其阅读顺序(reading order)。
  • 在第二阶段,PaddleOCR-VL-0.9B 基于前一阶段生成的版面结构预测结果,进一步完成对多种内容类型的细粒度识别(fine-grained recognition),涵盖文本、表格、数学公式以及图表等。
  • 最后,一个轻量级后处理模块(lightweight post-processing module)对两阶段的输出结果进行聚合与整合,并将最终解析结果格式化输出为结构化的 Markdown 与 JSON 文件。

布局分析模型架构
PaddleOCR-VL-0.9B的训练架构,训练数据主要是四部分,文本、图表、公式、图表,是基于文心4.5-0.3B模型训练的,模型非常小,非常适合端侧部署!
在这里插入图片描述

新鲜出炉,小试牛刀

【家庭理财小能手】账单存档上云无遗漏

国庆出去旅游吃吃喝喝花了好多钱,恩格尔系数爆炸了,但是钱也不知道花到哪里去了?微信和支付宝统计账目又不是很准确,有些还能报销,一个月剩多少心里没底🤔

解决:用OCR一键识别之后导入excel就行了,来看看识别的效果
请添加图片描述

  • 表格导出很方便啊,连模糊的地方都给我识别清楚啦!
菜品名称 数量 单价 金额
餐位费 6位 5.00 30.00
纸巾 1盒 2.00 2.00
(客)218套餐 1份 218.00 218.00
*烤鸭 1只
*酸萝卜鸭架汤 1锅
*辣卤鸭脖 1份
*爽口木耳 1份
*火腿肠 1份
*肥牛 1份
*客瓜 1份
*龙口粉丝 1份
*喜皮 1份
*时蔬 1份
*野菜煎饼 1份
*餐位费 6位
*纸巾 1盒
辣卤鸭舌 1份 26.00 26.00
(遇)辣卤鸭舌 -1份 26.00 -26.00
辣卤鸭头 6个 5.00 30.00
辣鸭腿 1份 18.00 18.00
虾饺 1份 16.00 16.00
午餐肉 1份 18.00 18.00
红糖糍粑 1份 20.00 20.00
辣吼花生酱 1扎 26.00 26.00
手工蛋块 1份 12.00 12.00
盛香小河虾 1份 22.00 22.00
苏爆 6瓶 6.00 36.00
(老)苏爆 -3瓶 6.00 -18.00
包肠费 1份 38.00 38.00
煮蛋 1份 4.00 4.00

【学生党福音】解决网上学习资料不给复制!!!

最近在复习线性代数,网上的pdf都是图片不能复制下来写笔记,现在我来试一试能不能一键提取数学公式,包括手写体。

上传:对称矩阵的对角化
请添加图片描述

识别结果非常完美!!! (提供markdown格式可以直接下载)

在这里插入图片描述
Markdown& latex 格式一键导出:

一、 施密特正交化

几何角度: (x,y)=∣x∣∣y∣cos⁡90∘=0 (x,y)=|x||y|\cos90^{\circ}=0 (x,y)=x∣∣ycos90=0

代数角度: (x,y)=x1y1+x2y2+x3y3=0 (x,y)=x_{1}y_{1}+x_{2}y_{2}+x_{3}y_{3}=0 (x,y)=x1y1+x2y2+x3y3=0

对于线性无关的向量 α1,α2,α3 \alpha_{1},\alpha_{2},\alpha_{3} α1,α2,α3 ,令

{β1=α1β2=α2−(α2,β1)(β1,β1)β1β3=α3−(α3,β1)(β1,β1)β1−(α3,β2)(β2,β2)β2⋯⋯,则β1,β2,β3相互正交 \left\{\begin{aligned}\boldsymbol{\beta}_{1}&=\boldsymbol{\alpha}_{1}\\ \boldsymbol{\beta}_{2}&=\boldsymbol{\alpha}_{2}-\frac{\left(\boldsymbol{\alpha}_{2},\boldsymbol{\beta}_{1}\right)}{\left(\boldsymbol{\beta}_{1},\boldsymbol{\beta}_{1}\right)}\boldsymbol{\beta}_{1}\\ \boldsymbol{\beta}_{3}&=\boldsymbol{\alpha}_{3}-\frac{\left(\boldsymbol{\alpha}_{3},\boldsymbol{\beta}_{1}\right)}{\left(\boldsymbol{\beta}_{1},\boldsymbol{\beta}_{1}\right)}\boldsymbol{\beta}_{1}-\frac{\left(\boldsymbol{\alpha}_{3},\boldsymbol{\beta}_{2}\right)}{\left(\boldsymbol{\beta}_{2},\boldsymbol{\beta}_{2}\right)}\boldsymbol{\beta}_{2}\\ &\cdots\cdots\end{aligned}\right., 则 \boldsymbol{\beta}_{1},\boldsymbol{\beta}_{2},\boldsymbol{\beta}_{3} 相互正交 β1β2β3=α1=α2(β1,β1)(α2,β1)β1=α3(β1,β1)(α3,β1)β1(β2,β2)(α3,β2)β2⋯⋯,β1,β2,β3相互正交

正交单位化例题

α1=(12−1),α2=(−131),α3=(4−10) \alpha_{1}=\begin{pmatrix}1\\ 2\\ -1\end{pmatrix},\alpha_{2}=\begin{pmatrix}-1\\ 3\\ 1\end{pmatrix},\alpha_{3}=\begin{pmatrix}4\\ -1\\ 0\end{pmatrix} α1= 121 ,α2= 131 ,α3= 410 ,将这组向量正交单位化.

正交&单位化:

e1=β1∥β1∥=16(12−1) \boldsymbol{e}_{1}=\frac{\boldsymbol{\beta}_{1}}{\left\|\boldsymbol{\beta}_{1}\right\|}=\frac{1}{\sqrt{6}}\begin{pmatrix}1\\ 2\\ -1\end{pmatrix} e1=β1β1=6 1 121

β1=α1=(12−1) \boldsymbol{\beta}_{1}=\boldsymbol{\alpha}_{1}=\begin{pmatrix}1\\ 2\\ -1\end{pmatrix} β1=α1= 121

β2=α2−(α2,β1)(β1,β1)β1=(−131)−46(12−1)=53(−111) \boldsymbol{\beta}_{2}=\boldsymbol{\alpha}_{2}-\frac{\left(\boldsymbol{\alpha}_{2},\boldsymbol{\beta}_{1}\right)}{\left(\boldsymbol{\beta}_{1},\boldsymbol{\beta}_{1}\right)}\boldsymbol{\beta}_{1}=\begin{pmatrix}-1\\3\\1\end{pmatrix}-\frac{4}{6}\begin{pmatrix}1\\2\\-1\end{pmatrix}=\frac{5}{3}\begin{pmatrix}-1\\1\\1\end{pmatrix} β2=α2(β1,β1)(α2,β1)β1= 131 64 121 =35 111

e2=β2∥β2∥=13(−111) \boldsymbol{e}_{2}=\frac{\boldsymbol{\beta}_{2}}{\left\|\boldsymbol{\beta}_{2}\right\|}=\frac{1}{\sqrt{3}}\begin{pmatrix}-1\\1\\1\end{pmatrix} e2=β2β2=3 1 111

β3=α3−(α3,β1)(β1,β1)β1−(α3,β2)(β2,β2)β2=(4−10)−13(12−1)+53(−111)=2(101) \beta_{3}=\alpha_{3}-\frac{(\alpha_{3},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1}-\frac{(\alpha_{3},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2}=\begin{pmatrix}4\\-1\\0\end{pmatrix}-\frac{1}{3}\begin{pmatrix}1\\2\\-1\end{pmatrix}+\frac{5}{3}\begin{pmatrix}-1\\1\\1\end{pmatrix}=2\begin{pmatrix}1\\0\\1\end{pmatrix} β3=α3(β1,β1)(α3,β1)β1(β2,β2)(α3,β2)β2= 410 31 121 +35 111 =2 101

e3=β3∥β3∥=12(101) \boldsymbol{e}_{3}=\frac{\boldsymbol{\beta}_{3}}{\left\|\boldsymbol{\beta}_{3}\right\|}=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 0\\ 1\end{pmatrix} e3=β3β3=2 1 101

我们来看看,纸笔手写体效果怎么样?

请添加图片描述
非常不错啊,内容识别的非常准确!

【科研党专属】复制Table提取,告别Ctrl+C/V

识别一下可以图表看看
请添加图片描述

复制表格的识别效果还是非常不错的!!!

在这里插入图片描述

【高难测试】人物关系图表

这个是前端渲染的网页复杂关系网页,看看效果
请添加图片描述

检测结果:看起来还不错,从左至右,从上至下,效果蛮不错的!

请添加图片描述

PaddleOCR团队

Paddle-OCR VL模型由百度飞桨Paddle OCR团队出品。Paddle OCR是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。自2020年开源以来,累计下载量突破900万,被超过5.9k开源项目直接或间接使用。
在这里插入图片描述

在这里插入图片描述

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐