免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

发布日期:2025-12-09 08:30:35 浏览次数: 1525
作者:大模型自然语言处理

微信搜一搜,关注“大模型自然语言处理”

推荐语

英伟达开源多模态文档解析利器,轻松处理复杂版式与表格识别。

核心内容:
1. 模型架构解析:基于ViT-H和mBart的vision-encoder-decoder设计
2. 核心功能展示:支持9类文档元素识别与表格提取
3. 开发者资源:提供HuggingFace预训练权重并兼容vLLM推理

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个token到3201个token)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

布局理解
布局理解
表格提取
表格提取
格式和方程提取
格式和方程提取

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询