我要投稿

微软经典论文 | 首个用于文档阅读顺序预测的模型LayoutReader

发布日期：2024-07-25 08:41:50 浏览次数： 3373

导读

前面提到过pdf文档解析一个很重要的模块就是阅读顺序预测，尽管输出正确的阅读顺序似乎是一个基本要求，但由于文档格式多样（例如表格、多栏等），从文档图像中获取适当的阅读顺序并非易事，大多数OCR引擎也未能提供正确的阅读顺序，通常使用规则来判断阅读顺序，比如按照从上到下、从左到右的顺序输出。无法适用于多栏等复杂文档类型。另外虽然深度学习模型在特定领域表现出色，但需要大量人工标注数据集，在本文之前不存在这种用于阅读顺序预测的数据集

本文提出的LayoutReader，有以下创新之处：

ReadingBank数据集：通过自动化的方式从微软WORD文档的XML格式中提取阅读顺序信息，简化了数据准备过程。得到了一个包含500,000个真实世界文档图像的基准数据集，为阅读顺序检测提供了大规模、高质量的标注数据。
LayoutReader模型：提出了一个新的阅读顺序预测模型，使用序列到序列模型编码文本和布局信息，生成阅读顺序索引序列。
多模态信息融合：消融研究表明，结合文本和布局信息对于最终性能至关重要，LayoutReader在两种模态下表现卓越。

论文名称：LayoutReader: Pre-training of Text and Layout for Reading Order Detection
论文地址：https://arxiv.org/pdf/2108.11591
代码地址：https://github.com/microsoft/unilm/tree/master/layoutreader

Introduction

本文是EMNLP2021论文，是第一篇通过深度学习模型来进行阅读顺序预测的方法，

这里重点介绍下论文的两个创新点：ReadingBank数据集和LayoutReader模型

# 构建ReadingBank

ReadingBank 包含两部分，即单词序列及其对应的边界框坐标。我们将从DocX文件中提取的单词序列称为Reading Sequence。对应的边界框从由DocX文件生成的PDF文件中提取。我们提出了一种着色方案来匹配每个单词及其边界框。

从互联网上以DocX格式爬取WORD文档，我们只保留每页超过50个单词的页面，以确保每个页面上有足够的信息。通过这种方式，我们总共收集了210,000个英文WORD文档，每个页面都包含足够的信息。我们进一步随机选择了500,000页来构建我们的数据集。其中训练集包含400,000个文档页面，验证集和测试集各包含50,000个文档页面。

# LayoutReader模型

LayoutReader模型结构

优势：

文本和布局信息融合：LayoutReader 通过结合文本内容和布局信息，提高了阅读顺序检测的准确性。
布局感知编码：使用 LayoutLM 作为编码器，LayoutReader 能够理解文档的布局结构，这对于复杂文档的阅读顺序检测至关重要。
精细控制的自注意力机制：通过精心设计的自注意力掩码，LayoutReader 有效地控制了编码阶段的信息流，防止了不正确的阅读顺序信息的干扰。
高效的解码策略：在解码阶段，LayoutReader 通过预测源序列中的索引，简化了解码过程，并提高了生成阅读顺序的准确性。

点评

虽然从现在的角度看本文的方案LayoutReader已经过时，但文中提出的提出的一套生成带阅读顺序的文档图像数据pipeline至今仍然是有意义的。

但仍然存在以下缺点：

代码中有许多实验性质的代码，组织不够清晰，训练和部署都很困难。
seq2seq在生产环境中速度太慢，我们希望一次性完成所有预测
预训练模型的输入是英文单词级别，但实际情况并非如此。真正的输入应该是PDF解析器或OCR提取的文本片段（行级别或者段级别）。
只支持英文，不支持多语言。

这里推荐其他作者基于HF的Transformers里的LayoutLMV3实现的LayoutReader:

https://github.com/ppaanngggg/layoutreader

作者的改进：

重构代码，使用transformers库中的LayoutLMv3ForTokenClassification进行训练和评估。
提供一个脚本，将原始的单词级别数据集转换为文本片段级别数据集。
实现一个更好的后处理程序，以避免重复预测。
发布一个预训练模型，该模型从layoutlmv3-large微调而来，现已在Hugging Face上提供。

根据作者readme的介绍，其改进后的版本仅使用box框，没有使用text信息，也做到了和论文中相当的水平。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-11

Claude Code：你需要知道的一切

2026-05-11

当 AI 巨头开始做咨询：企业 AI 从模型战争进入交付战争

2026-05-09

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

“Claude Code 你就作吧，我换 Codex 了”

2026-05-09

LLM 输出到这步才算可靠：生产级输出验证与质量工程实战

2026-05-09

OpenAI发布Codex for Chrome，能自动操控浏览器干活了！

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

2026-02-14

OpenAI Codex CLI 完整使用指南

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

全球首个 AI 进化网络 EvoMap，给 Agent 装上 DNA

2026-02-20

大家都在问

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

为什么同一个模型，在 Claude Code/Codex CLI 里感觉像换了个脑子？

2026-05-07

「双线实测」Qwen 3.6-Plus，Agentic Coding 已经这么能「扛活儿」了？

2026-04-26

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

设计行业的“棺材板”，要被Claude Design盖上了？

2026-04-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部