微信扫码
添加专属顾问
我要投稿
UReader 的特点
通过统一的指令格式对各种视觉情境语言理解任务进行了联合微调
为了增强视觉文本和语义理解,进一步应用了两个具有相同格式的辅助任务,即文本阅读和关键点生成任务。
在 MLLM 的编码器-解码器架构之前设计了一个形状自适应裁剪模块,以利用冻结的低分辨率视觉编码器来处理高分辨率图像。
构建了一个指令调整数据集,涵盖视觉情境语言理解的 5 个领域:文档、表格、图表、自然图像和网页屏幕截图。
在没有下游微调的情况下,UReader在 10 个视觉情境语言理解任务中的 8 个中实现了最先进的无 OCR 性能。
输入图像,首先由形状自适应裁剪模块(Shape-Adaptive Cropping Module),将文档中不同布局的内容裁剪出来
然后,将裁剪出的子图像同时通过视觉编码器(visual Encoder)和视觉抽象器(visual Abstractor)
最后,为了使大语言模型能够关联多个裁剪的子图像,应用裁剪位置编码模块(crop Postion Encoding)来引入跨子图像的空间信息, 送入LLM中
带有文本的图像具有各种宽高比和多种分辨率,简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。 因此,提出了形状自适应裁剪模块。
如何自适应呢?
首先,预先定义各种形状的网格,分别表示网格的行数和列数,网格的最小格子长宽为
要为形状为的图像选择合适的网格,应遵循两个规则:
为此,采用Iou算法,来获得最佳网格布局
网格应尽可能保留图像的分辨率
网格应适合输入图像的长宽比
MLLM 主要使用单个图像作为输入进行训练。 由于裁剪模块,需要将多个图像的视觉特征输入到语言模型中。 大语言模型的一维位置嵌入不能反映每个子图像的空间位置,这对于关联局部图像至关重要。
因此,结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。
具体操作如下:
为所选网格的每个单元分配一个位置索引
通过两个辅助嵌入层获取它们的行嵌入和列嵌入
通过沿着可学习查询的维度进行广播,将嵌入添加到语言空间中每个单元的视觉特征中
然后,将视觉特征重塑为一张图,由此产生的空间感知视觉特征和输入句子的词嵌入在序列维度上连接并发送到大型语言模型。
为了增强语言模型有效建模多个图像的能力,同时保持较低的训练成本,冻结了原始语言模型并采用低秩适应方法进行微调。
根据图像中的文本和位置信息,按照常见的阅读顺序组织文本:从上到下,从左到右,依次按照指令回答。例如:
从头开始阅读的指令:人类:识别图像中的文本。 AI:{所有文本},
继续阅读的指令:人类:这张图片上的文字是{左文本}。 继续阅读正文。 AI:{正确的文本}
为了增强视觉和语言语义理解能力,设计一个辅助的关键点生成任务,该任务要求模型给出关于图像的一些关键点。
收集每个图像的 QA 对,并使用 Vicuna将它们转换为陈述句,这些陈述句最终被视为关于图像的关键点。 我们还构建了一组模板来指导这项任务,例如
人类:识别这张图中的一些关键点。 AI:{要点}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-23
128K Star 的开源 AI 编程 Agent,把 Anthropic 逼到发律师函了
2026-03-23
字节跳动开源 DeerFlow 2.0:下一代超级 Agent 引擎,一键搞定复杂工作流!
2026-03-23
企业中职能部门打工人如何选小龙虾
2026-03-23
MiniMax开源技能包:让AI写代码从大学生变资深工程师
2026-03-22
OxyGent:构建高效能多智能体系统的协作框架
2026-03-22
Ollama绝赞适配World Monitor:无需API密钥的全球情报看板,金融地缘一手掌握!`
2026-03-22
重磅!VS Code 正式“改名”!绿色版 VS Code 更强!
2026-03-21
Hugging Face:AI 界的 GitHub 与开源协作的终极生态杠杆
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-06
2026-01-26
2026-01-23
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21