我要投稿

IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

发布日期：2025-04-14 07:27:50 浏览次数： 2198

作者：CourseAI

微信搜一搜，关注“CourseAI”

SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建，该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。

视觉骨干采用 SigLIP base patch-16/512（93M）其训练数据经过重新平衡，以强调文档理解（41%）和图像描述（14%）。
通过增加像素到标记的比率至每标记 4096 像素，并引入子图像分隔符的特殊标记，提高了标记化效率。
语言骨干采用轻量级的 SmolLM-2 家族（135M），并采用激进的像素洗牌方法，将每个 512×512 的图像块压缩为 64 个视觉标记。
该模型通过生成一种名为 DocTags 的新通用标记格式，全面处理整页文档，捕捉页面元素的全部上下文及其位置信息。
SmolDocling 在多种文档类型（包括商业文件、学术论文、技术报告、专利和表单等）中表现出色，能够正确复现代码列表、表格、公式、图表、列表等元素。
针对图表、表格、公式和代码识别的新型公开数据集。

SmolDocling架构

输入图像编码：输入的文档页面图像首先通过视觉编码器进行编码，然后通过投影和池化进行重塑。
标记化和嵌入：将投影后的嵌入与用户提示的文本嵌入进行拼接，可能还会进行交错处理。
自回归预测：将拼接后的序列输入到语言模型中，自回归地预测 DocTags 序列。

假设有一个包含文本、表格和图表的文档页面图像，SmolDocling 将该图像转换为 DocTags 序列。

例如，文本内容将被封装在 <text> 标记中，表格结构将使用 OTSL 标记（如 <fcel>、<ecel> 等）表示，图表将被封装在 <picture> 标记中，并可能包含 <caption> 标记以表示图表标题。

DocTags 格式

DocTags 受 OTSL 启发，定义了一个结构化的词汇表和规则，明确区分文本内容和文档结构，减少了图像到序列模型的混淆。

DocTags 使用 XML 风格的标记来封装基本元素的文本内容，并定义了如文本、标题、脚注、公式、列表项等文档块类型。
每个元素都可以嵌套额外的位置标记，以编码其在页面上的位置，形式为 <loc_x1><loc_y1><loc_x2><loc_y2>。
对于特殊块（如表格和图像），DocTags 还嵌套了额外的描述符，用于标题、表格结构或图像类别。
为了促进文档理解流程中稳健的视觉-语义对齐，保持了裁剪页面元素（如表格、代码、公式）的统一 DocTags 表示，使其与完整页面对应物相同

训练流程

首先，将 DocTags 作为标记纳入分词器，并冻结视觉编码器，仅训练剩余网络以适应新的输出格式。
为了确保涵盖所有 DocTags，训练过程中保持了任务和数据类型的平衡混合。
接下来，解冻视觉编码器，并在预训练数据集以及所有特定任务的转换数据集（包括表格、代码、公式和图表）上训练模型。
最后，使用所有可用数据集进行微调。

预训练数据集

DocLayNet-PT

包含 140 万页的数据集
从 DocFM 数据集中提取，涵盖了来自 CommonCrawl、维基百科和商业相关文档的独特 PDF 文档。
该数据集通过一系列处理步骤进行了弱标注，包括布局元素、表格结构、语言、主题和图像分类的标注。

Docmatix

为了保留 SmolVLM 的原始 DocVQA 能力，对 Docmatix 数据集中的 130 万文档应用了与 DocLayNet-PT 相同的弱标注策略，并引入了将多页文档转换为 DocTags 的指令。

特定任务的数据集

布局：

为了优化文档布局和表格结构的预测质量，从 DocLayNet-PT 中抽取了 76K 页进行人工标注和严格的质量审查，形成了 DocLayNet v2 数据集。
从 WordScape 中提取了 63K 页，并合成生成了 250K 页的 SynthDocNet 数据集，以增强模型对不同布局、颜色和字体的适应能力。

表格：

在 PubTables-1M、FinTabNet、WikiTableSet 和从 WordScape 文档中提取的表格信息上训练模型，并将表格结构信息转换为 OTSL 格式。

图表：

为了填补现有图表数据集在数量和视觉多样性方面的不足
使用来自 FinTabNet 数据集的 90,000 个表格数据生成了包含 250 万张视觉多样图表的 SynthChartNet 数据集。

代码：

为了满足技术书籍和科学文档中代码片段处理的需求
使用 LaTeX 和 Pygments 生成了包含 56 种编程语言的 930 万段视觉多样代码的 SynthCodeNet 数据集。

公式：

结合公开数据集和从 arXiv 提取的公式，创建了一个包含 550 万独特公式的 SynthFormulaNet 数据集。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

2026-05-26

面壁智能BitCPM-CANN：端侧AI的内存革命

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部