我要投稿

【开源初探】基于 Qwen2.5VL的文档解析工具：docext

发布日期：2025-08-04 08:12:19 浏览次数： 1862

作者：皮皮AI记

微信搜一搜，关注“皮皮AI记”

源码地址： https://github.com/NanoNets/docext^[1]

概述

docext 是一个由视觉语言模型（vlm）提供支持的全面的本地文档智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型，应该是在此模型基础上进行的微调。

它提供了三个核心功能：

1.pdf/image 转 markdown：将文档转换为具有智能内容识别的结构化标记，包括 LaTeX 方程、签名、水印、表和语义标记。

2.文档信息提取：从发票、护照和其他文档类型等文档中无 ocr 地提取结构化信息（字段、表等），并进行置信度评分。

3.智能文档处理排行榜（https://idp-leaderboard.org/）：一个全面的基准测试平台，跟踪和评估视觉语言模型在OCR、关键信息提取（Key Information Extraction， KIE）、文档分类、表提取和其他智能文档处理任务中的性能。

核心特点

文档转换

(1) latex 公式识别，行内和块的公式使用 latex 表示输入：

官方案例部分输出结果如下：

(2) 智能图片描述，对于所有图片，使用去替代原来图片中的内容；输入：

官方案例部分输出结果如下：

(3)签名/水印/页码的检测，检测和标记文档中的签名、水印和页码，并分别放入到、、<page_number></page_number>中；输入：

官方案例部分输出结果如下：

输入：

官方案例部分输出结果如下：

(4) 复选框和单选按钮：将表单复选框和单选按钮转换为标准化的 Unicode 符号(☐, ☑, ☒) 输入：

官方案例部分结果如下：

(5) 表格检测：将复杂的表格转换成 html 的表格表示输入：

官方案例部分结果如下：

智能文档处理排行榜

该基准评估七个关键文档智能挑战的性能;

(1) 关键信息提取（KIE）：从非结构化文档文本中提取结构化字段。

(2) 视觉问答（VQA）：通过问答来评估对文档内容的理解。

(3) 光学字符识别（OCR）：测量识别印刷和手写文本的准确性。

(4) 文档分类：评估模型对各种文档类型进行分类的准确性。

(5) 长文档处理：测试模型对冗长的、上下文丰富的文档的推理。

(6) 表提取：从复杂的表格格式中提取基准结构化数据。

(7) 可信度评分校准：评估模型预测的可靠性和置信度。

补充

工具提到可以输出可信度评分，从源码来看主要是将用户的输入以及大模型的输出结果+打分的 prompt 让大模型对用户的输入和大模型的输出结果打分。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-15

OpenClaw 的「中国套件」来了：飞书钉钉企微QQ一锅端

2026-02-15

🦞 OpenClaw 二月狂飙：从能用变成“真·好用”的7版连更

2026-02-14

让 OpenClaw 一键超简单部署，用 MonsterClaw 过年赚大钱

2026-02-14

MiniMax M2.5：龙虾御用，Agent 永不停机

2026-02-14

如果你还在犹豫要不要尝试 OpenClaw，试试这个 App 一键部署方案

2026-02-14

2.1K Star！这个 Claude Skills 技能库，给 AI 编程助手装上了 66 颗专家大脑！

2026-02-14

全网都在猜DeepSeek V4的发布时间，但国产模型激战还有一条暗线

2026-02-13

开源：参考OpenClaw，我们给 Claude Code 加上了轻量化的永久透明记忆

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部