微信扫码
添加专属顾问
我要投稿
ReadingBank数据集:通过自动化的方式从微软WORD文档的XML格式中提取阅读顺序信息,简化了数据准备过程。得到了一个包含500,000个真实世界文档图像的基准数据集,为阅读顺序检测提供了大规模、高质量的标注数据。
LayoutReader模型:提出了一个新的阅读顺序预测模型,使用序列到序列模型编码文本和布局信息,生成阅读顺序索引序列。
Introduction
# 构建ReadingBank
文本和布局信息融合:LayoutReader 通过结合文本内容和布局信息,提高了阅读顺序检测的准确性。
布局感知编码:使用 LayoutLM 作为编码器,LayoutReader 能够理解文档的布局结构,这对于复杂文档的阅读顺序检测至关重要。
精细控制的自注意力机制:通过精心设计的自注意力掩码,LayoutReader 有效地控制了编码阶段的信息流,防止了不正确的阅读顺序信息的干扰。
高效的解码策略:在解码阶段,LayoutReader 通过预测源序列中的索引,简化了解码过程,并提高了生成阅读顺序的准确性。
但仍然存在以下缺点:
代码中有许多实验性质的代码,组织不够清晰,训练和部署都很困难。
seq2seq在生产环境中速度太慢,我们希望一次性完成所有预测
预训练模型的输入是英文单词级别,但实际情况并非如此。真正的输入应该是PDF解析器或OCR提取的文本片段(行级别或者段级别)。
这里推荐其他作者基于HF的Transformers里的LayoutLMV3实现的LayoutReader:
https://github.com/ppaanngggg/layoutreader
重构代码,使用transformers库中的LayoutLMv3ForTokenClassification进行训练和评估。
提供一个脚本,将原始的单词级别数据集转换为文本片段级别数据集。
实现一个更好的后处理程序,以避免重复预测。
根据作者readme的介绍,其改进后的版本仅使用box框,没有使用text信息,也做到了和论文中相当的水平。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-28
Harness:AI 从 “能做” 到 “稳做” 的系统层革命!
2026-03-28
Claude Code开启团战模式!你必须要用起来的Agent teams!
2026-03-28
最强Claude意外泄露!完胜Opus 4.6,代号「卡皮巴拉」,奥特曼又要睡不着了
2026-03-27
Tair 短期记忆架构实践:淘宝闪购 AI Agent 的秒级响应记忆系统
2026-03-27
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
2026-03-26
GitHub 悄悄改了规则,你的代码可能正在被拿去训练 AI
2026-03-26
Harness is the New Dataset:模型智能提升的下一个关键方向
2026-03-26
Google 亲手证明:GUI 已死,但尸体还在动
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2025-12-30
2026-01-21
2026-03-22
2026-03-22
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18