我要投稿

Alibaba开源UReader：通用免OCR文档理解

发布日期：2024-11-14 08:28:11 浏览次数： 2725

作者：CourseAI

微信搜一搜，关注“CourseAI”

UReader 的特点

通过统一的指令格式对各种视觉情境语言理解任务进行了联合微调
为了增强视觉文本和语义理解，进一步应用了两个具有相同格式的辅助任务，即文本阅读和关键点生成任务。
在 MLLM 的编码器-解码器架构之前设计了一个形状自适应裁剪模块，以利用冻结的低分辨率视觉编码器来处理高分辨率图像。
构建了一个指令调整数据集，涵盖视觉情境语言理解的 5 个领域：文档、表格、图表、自然图像和网页屏幕截图。
在没有下游微调的情况下，UReader在 10 个视觉情境语言理解任务中的 8 个中实现了最先进的无 OCR 性能。

UReader架构

输入图像，首先由形状自适应裁剪模块(Shape-Adaptive Cropping Module)，将文档中不同布局的内容裁剪出来
然后，将裁剪出的子图像同时通过视觉编码器(visual Encoder)和视觉抽象器(visual Abstractor)
最后，为了使大语言模型能够关联多个裁剪的子图像，应用裁剪位置编码模块(crop Postion Encoding)来引入跨子图像的空间信息, 送入LLM中

自适应裁剪模块(Shape-Adaptive Cropping Module)

带有文本的图像具有各种宽高比和多种分辨率，简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。因此，提出了形状自适应裁剪模块。

如何自适应呢？

首先，预先定义各种形状的网格，分别表示网格的行数和列数，网格的最小格子长宽为
要为形状为的图像选择合适的网格，应遵循两个规则：
为此，采用Iou算法，来获得最佳网格布局

网格应尽可能保留图像的分辨率
网格应适合输入图像的长宽比

大语言模型裁剪图像建模

MLLM 主要使用单个图像作为输入进行训练。由于裁剪模块，需要将多个图像的视觉特征输入到语言模型中。大语言模型的一维位置嵌入不能反映每个子图像的空间位置，这对于关联局部图像至关重要。

因此，结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。

具体操作如下：

为所选网格的每个单元分配一个位置索引
通过两个辅助嵌入层获取它们的行嵌入和列嵌入
通过沿着可学习查询的维度进行广播，将嵌入添加到语言空间中每个单元的视觉特征中
然后，将视觉特征重塑为一张图，由此产生的空间感知视觉特征和输入句子的词嵌入在序列维度上连接并发送到大型语言模型。
为了增强语言模型有效建模多个图像的能力，同时保持较低的训练成本，冻结了原始语言模型并采用低秩适应方法进行微调。

微调主要是两个任务：

文本阅读任务

根据图像中的文本和位置信息，按照常见的阅读顺序组织文本：从上到下，从左到右，依次按照指令回答。例如：

从头开始阅读的指令：人类：识别图像中的文本。 AI：{所有文本}，
继续阅读的指令：人类：这张图片上的文字是{左文本}。继续阅读正文。 AI：{正确的文本}

关键点生成任务

为了增强视觉和语言语义理解能力，设计一个辅助的关键点生成任务，该任务要求模型给出关于图像的一些关键点。

收集每个图像的 QA 对，并使用 Vicuna将它们转换为陈述句，这些陈述句最终被视为关于图像的关键点。我们还构建了一组模板来指导这项任务，例如

人类：识别这张图中的一些关键点。 AI：{要点}

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-06

Qwen3-Coder-Next 上线模力方舟：仅 3B 激活参数，媲美主流大模型的 Agent 编码能力

2026-02-06

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Qwen3-TTS：2026年最强开源文本转语音模型完全指南

2026-02-06

OpenClaw 爆火之后，我们看到了这些创业信号

2026-02-05

从Clawdbot到OpenClaw：爆款本地AI Agent的产品逻辑与争议

2026-02-05

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

全球最多下载中文开源数据集更新｜OpenCSG持续打造中文高质量数据集开源底座

2026-02-05

【开源】12.1K Star！用 Markdown 给大模型装上“外挂大脑”，不写后端、不搭平台，这个开源项目让你用 Git 管理 AI 任务流

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

2025-12-22

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean