2026年4月23日 周四晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验

发布日期:2026-04-21 20:44:33 浏览次数: 1536
作者:飞桨PaddlePaddle

微信搜一搜,关注“飞桨PaddlePaddle”

推荐语

PaddleOCR 3.5带来浏览器端OCR新体验,文档转换更智能,生态融合更便捷。

核心内容:
1. 发布PaddleOCR.js,支持浏览器端轻量调用OCR能力
2. 新增文档转换功能,支持Word/Excel/PPT转Markdown
3. 融入Hugging Face生态,统一推理引擎配置方式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

图片

 

PaddleOCR3.5正式发布,带来以下核心升级:

  1. 发布浏览器端PaddleOCR.js,开发者可以用更轻量的方式在前端应用中直接调用OCR能力。

  2. 支持将PaddleOCR-VL文档解析内容转为Word,以及将Word、Excel、PPT等类型的办公文档转为Markdown。

  3. 融入Hugging Face开发生态,通过统一推理引擎配置方式,支持基于Transformers完成OCR系列模型推理。


发布PaddleOCR.js
Agent时代,越来越多的智能体需要直接感知和理解用户界面上的信息——而这些信息,往往就存在于浏览器里。让数据不离开浏览器就能完成识别,不仅是对隐私的保护,更是降低系统复杂度、实现真正轻量化部署的关键一步。
PaddleOCR.js正是为此而生。从能力上看,它已经不仅仅是"能识别",而是在浏览器侧提供了一套更完整的使用体验:基于ONNX Runtime Web搭建,同时支持WebGPUWasm两种加速后端;提供Worker模式,推理过程在后台线程运行,不阻塞主线程、不影响页面交互;并已适配Chrome、Safari等主流浏览器。
无论是验证码识别、在线票据处理,还是构建更强调交互体验的前端AI工具,开发者都可以用更轻量的方式,将PaddleOCR无缝接。
import { PaddleOCR } from "@paddleocr/paddleocr-js";const ocr = await PaddleOCR.create({  lang"ch",  ocrVersion"PP-OCRv5",  workertrue,  ortOptions: {    backend"auto"  }});const [result] = await ocr.predict(fileOrBlob);console.log(result.items);
同时,从调用风格上看,PaddleOCR.js与PaddleOCR Python接口也保持了较高的一致性。Python侧通过PaddleOCR(...)初始化并调用predict,浏览器侧则通过PaddleOCR.create({...})初始化后同样调用predict得到推理结果列表。这让已有PaddleOCR Python库用户迁移到Web端时几乎不需要重新理解一套完全不同的接口设计:
from paddleocr import PaddleOCRocr = PaddleOCR(    lang="ch",    ocr_version="PP-OCRv5")result = ocr.predict("general_ocr_002.png")
import { PaddleOCR } from "@paddleocr/paddleocr-js";// 支持 Python 风格的 snake_case 参数const ocr = await PaddleOCR.create({  lang"ch",  ocr_version"PP-OCRv5"});// 也支持 JavaScript 风格的 camelCase 参数// const ocr = await PaddleOCR.create({//   lang: "ch",//   ocrVersion: "PP-OCRv5"// });const [result] = await ocr.predict(fileOrBlob);
另外,PaddleOCR.js还提供了结果可视化能力,能够把检测框、识别文字等结果以与PaddleOCR Python库相同的风格渲染出来。
import { OcrVisualizer } from "@paddleocr/paddleocr-js/viz";const viz new OcrVisualizer({  font: { family"Noto Sans SC", source"/fonts/NotoSansSC-Regular.ttf" }});const blob = await viz.toBlob(imageBitmap, result);
PaddleOCR仓库中提供了一个简单Demo应用,用于快速体验PaddleOCR.js的效果:
开发者可以在Demo应用中先跑通体验,再逐步集成到自己的Web应用中。
支持多格式文档解析
大模型时代,数据的价值被重新审视。海量知识沉淀在Word、Excel、PPT、PDF等各类文档中,而大模型真正能消化的,是结构清晰的文本。打通文档与大模型之间的通路,成为这个时代最迫切的需求之一。
为此,PaddleOCR 3.5在文档格式的输入与输出两端同时发力:
输出侧:支持将PaddleOCR-VL系列模型、PP-StructureV3的预测结果直接导出为Word格式,让识别结果开箱即用、便于人工流转;
输入侧:支持将Word、Excel、PPT等主流办公文档转换为Markdown格式,结构清晰,易于后续的LLM接入与智能体调用。
以PaddleOCR-VL为例,将预测结果导出为Word文档只需几行代码:
from paddleocr import PaddleOCRVLpipeline = PaddleOCRVL()output = pipeline.predict("./paddleocr_vl_demo.png")pages_res = []for res in output:    res.save_to_word(save_path="output"## 保存当前图像的Word格式的结果    pages_res.append(res)    output = pipeline.restructure_pages(pages_res)for res in output:    res.save_to_word(save_path="output"## 将合并后的多页结果保存为Word格式

向左滑动查看导出后的word文件

对于办公文档转Markdown功能,只需一行命令即可高效完成:
# 转换 Word 文档,输出到文件paddleocr doc2md -i report.docx -o output.md# 转换 Excel 表格,输出到文件paddleocr doc2md -i data.xlsx -o output.md# 转换 PowerPoint 演示文稿,输出到文件paddleocr doc2md -i slides.pptx -o output.md

向左滑动查看导出后的Markdown文件

向左滑动查看导出后的Markdown文件

全面适配Transformers推理后端

PaddleOCR3.5将Transformers正式纳入统一推理引擎体系,支持通过统一的配置方式,让开发者可以用同一套接口切换不同底层后端。对需要融入 Hugging Face AI开发生态的用户来说,这意味着在熟悉的Transformers环境中,也能更顺畅地接入OCR与文档解析能力,减少跨生态集成成本,并让原本分散的部署选择变得更加统一、清晰。

从使用门槛上看,这次适配也尽量保持了简单直接。开发者只需在环境中安装5.4.0或更高版本的transformers以及3.5.0版本的paddleocr,即可通过统一接口完成调用。以文本检测模型为例:

from paddleocr import TextDetectionmodel = TextDetection(    model_name="PP-OCRv5_server_det",    engine="transformers",)result = model.predict("general_ocr_001.png")

其中,engine可以是paddle_staticpaddle_dynamictransformers,分别对应飞桨静态图(Paddle Inference)、飞桨动态图和Transformers后端。

Transformers提供高效简洁的单模型的加载、配置与推理能力,而PaddleOCR在模块封装与多模型编排能力有长期积累的优势。在底层,我们保留了面向单模型的灵活接入方式;在更高一层,PaddleOCR仍然能够把检测、方向分类、识别等能力按业务需要串联组合起来,让开发者既能享受Transformers生态的便利,也能继续使用 PaddleOCR 已经成熟的产线化能力,实现更强的组合效果。例如,同样可以通过 engine 参数将 OCR pipeline直接切换到对应后端:

paddleocr ocr -i xxx.png \    --use_doc_orientation_classify False \    --use_doc_unwarping False \    --use_textline_orientation False \    --save_path ./output \    --engine transformers

执行结果与使用飞桨静态图完全对齐:

此外,PaddleOCR3.5还支持通过engine_config参数配置推理后端的初始化参数,进而实现更细粒度的设备选择、精度控制与推理行为调优,让统一接口之上也保留了足够的灵活性与可定制空间。

从文档图像到结构化数据,PaddleOCR始终致力于降低AI应用开发的数据门槛。PaddleOCR 3.5版本的升级,不仅让OCR能力更广泛地融入HuggingFace生态与浏览器端,更将文档解析链路延伸至多格式办公文档的一键转换。这一切努力,归根结底是为了把“将文档图像转换为JSON、Markdown等AI友好数据”这件事做到极致,让PaddleOCR真正成为每一位AI开发者手边的“开局神器”——数据一键整理、适度清洗、格式就绪,让您的AI应用从第一步就走在高效的路上。

我们诚邀广大开发者、研究者及行业伙伴亲身体验这一全新版本,也期待大家持续给予宝贵的反馈与建议。每一条意见,都是我们前行的动力。让我们携手共建更开放、更强大的OCR生态,共同推动OCR技术走向更广阔的未来。
开源地址:
https://github.com/PaddlePaddle/PaddleOCR

图片


关注【飞桨PaddlePaddle】公众号
获取更多技术内容~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询