微信扫码
添加专属顾问
我要投稿
英伟达开源多模态文档解析利器,轻松处理复杂版式与表格识别。 核心内容: 1. 模型架构解析:基于ViT-H和mBart的vision-encoder-decoder设计 2. 核心功能展示:支持9类文档元素识别与表格提取 3. 开发者资源:提供HuggingFace预训练权重并兼容vLLM推理
模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。
版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像
权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-03-12
阿里开源龙虾组合来了:HiClaw + CoPaw,内存占用大幅降低,还能直接操作本地环境
2026-03-12
大厂抢的不是“龙虾”,是人与AI的新型关系
2026-03-11
Google Workspace 团队开源了一个工具,叫 gws,直接搬进终端里了。
2026-03-11
OpenClaw爆火背后,我们所见的时代情绪 | Linear View
2026-03-11
开源 AI 收藏夹:全平台同步、自动摘要、智能对话,太强了!
2026-03-11
OpenAI 开源 Symphony!四天狂揽 8.7K Star,AI 编程自主管理神器!
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2026-01-28
2025-12-22
2026-01-21
2025-12-23
2026-01-06
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20