免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

NVIDIA推出文档解析新利器:会读懂复杂表格和公式的AI助手

发布日期:2025-11-27 17:34:16 浏览次数: 1521
作者:至顶AI实验室

微信搜一搜,关注“至顶AI实验室”

推荐语

NVIDIA最新AI助手能像侦探一样解析复杂文档,准确识别表格和公式,效率提升20%!

核心内容:
1. Nemotron-Parse 1.1模型如何像侦探一样解析复杂文档
2. 速度模式版本Nemotron-Parse 1.1-TC的效率提升
3. 模型架构设计如何实现高效准确的文档解析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

当你打开一份学术论文或者技术报告时,里面密密麻麻的文字、复杂的表格、各种数学公式,可能让你感到头疼。人类阅读这些文档尚且需要集中精力仔细辨认,更不用说让电脑去理解了。

然而NVIDIA的研究团队却开发出了一个"数字侦探",它不仅能准确识别文档中的每一个字符,还能理解文档的布局结构,知道哪些是标题、哪些是正文、哪些是图表说明,甚至能把复杂的数学公式和表格准确无误地提取出来。

这个名为Nemotron-Parse 1.1的模型,可以看作是一位经验丰富的文档侦探。当面对一份复杂文档时,这位侦探不会被密集的文字和图表吓倒。它会系统地扫描整个"案发现场",先确定文档的整体布局,然后仔细检查每一处细节,准确识别每个文字块的位置和类型,最后将所有信息按照正确的阅读顺序整理成一份完整的"破案报告"。这份报告不仅包含了原文的所有文字内容,还保留了文档的格式结构,包括标题层级、列表项目、数学公式等等。

更令人惊喜的是,这位数字侦探还有一个"速度模式"版本,叫做Nemotron-Parse 1.1-TC。在这个模式下,侦探的工作效率提升了20%,但几乎不会损失破案的准确度。这就好比一位经验丰富的侦探学会了如何更高效地筛选线索,跳过那些不太重要的细节,直接关注核心信息,从而大大提升了办案速度。

这项技术的突破之处在于,它将文档解析这个原本需要多个步骤、多个工具协同完成的复杂任务,整合成了一个端到端的系统。传统的文档处理方法就像是一个流水线工厂,需要先用一个工具识别文字,再用另一个工具分析布局,然后用第三个工具提取表格,每个环节都可能出错,效率也不高。而Nemotron-Parse则像是一位全能型侦探,一个人就能完成从勘察现场到撰写报告的全部工作,不仅速度更快,准确率也更高。

NVIDIA这次发布的模型有8.85亿个参数,听起来数字很大,但在同类模型中已经算是相当精简了。研究团队通过巧妙的架构设计,让这个模型虽然体型不大,但能力却很强。这就像是一位身材精瘦但身手敏捷的侦探,虽然块头不大,但破案效率却不输给那些体型庞大的同行。模型中的语言解码器只有2.56亿参数,就好比侦探的"大脑"虽然不大,但经过精心训练,已经掌握了高效处理信息的技巧。

这位数字侦探的独特装备

要理解Nemotron-Parse是如何工作的,我们可以把它想象成一位配备了先进工具的文档侦探。这位侦探有两套核心装备:一套是用来"观察"文档的视觉系统,另一套是用来"理解和记录"信息的语言系统。

视觉系统就像侦探的高清相机和放大镜,负责仔细扫描文档的每一个角落。研究团队为这套系统装配了名为RADIO的视觉编码器,这是一个拥有6.57亿参数的强大组件。当一份文档送到侦探面前时,这套视觉系统会将文档分解成许多小块区域,每个区域都被转换成一串数字信息。对于一张标准大小的文档页面(1648×2048像素),这套系统会生成3200个"视觉线索点"。

然而,3200个线索点对于后续处理来说还是太多了。研究团队设计了一个名为"视觉颈部"的组件,就像给侦探配备了一个智能助手,帮助筛选和压缩这些线索。这个助手使用特殊的卷积核(大小为1×4),水平方向扫描这些线索点,把相似的线索归并在一起。经过这一步处理,3200个线索点被精简到更易于处理的数量。

对于追求速度的TC版本,研究团队更进一步,使用了一种叫做"像素重排"的技术,将线索点数量进一步压缩到833个。这相当于给侦探配备了一副特殊的滤镜眼镜,让他能够一眼看出哪些是关键信息,哪些可以快速略过。通过这种方式,TC版本实现了16倍的信息压缩,速度提升了20%,但重要信息一个都没漏掉。

语言系统则是侦探的"笔记本",负责将观察到的信息记录下来并整理成完整的报告。这套系统基于mBART架构,但研究团队对它进行了精简,只保留了10层网络结构,并且采用了权重共享技术来进一步减小模型体积。这就像给侦探配备了一个精巧的速记本,虽然页数不多,但通过巧妙的组织方式,能够高效地记录大量信息。

最有趣的是,这位侦探不需要依赖"页码"来记住信息的顺序。传统的文档处理模型通常需要位置编码来标记每个词的位置,就像给每条线索贴上序号标签。但研究团队发现,通过训练,模型自己就能学会记住信息的先后顺序,不需要额外的标签。这不仅简化了系统设计,还让模型能够处理任意长度的文档,不受预设的最大长度限制。

这种设计决策并非偶然。在文档处理任务中,视觉信息本身就已经包含了大量的位置关系——文字在页面上的相对位置、段落的排列方式等等。解码器通过因果注意力机制(每个词只能看到它前面的词),自然就能推断出自己在序列中的位置。研究表明,这种"无位置编码"的方法不仅能达到和传统方法相当的准确率,还能更好地处理超长文档,避免了位置插值可能带来的问题。

研究团队还为这位侦探配备了一项特殊技能:多词元预测能力。传统的文档处理模型每次只能"写下"一个词,就像侦探每次只能记录一条线索,效率比较低。Nemotron-Parse则可以同时预测多个词元,就像经验丰富的侦探能够同时记录多条相关联的线索。在训练过程中,模型学会了如何预测接下来的多个词,通过添加额外的预测头来实现这一功能。实验证明,这种多词元训练策略不仅加快了推理速度,即使在单词元推理模式下,也能提升模型的整体准确率。

侦探的办案方式:灵活应对不同需求

一位优秀的侦探必须能够根据委托人的不同需求,提供相应的服务。有的委托人可能只需要知道文档的文字内容,有的可能还需要了解文档的结构布局,有的则需要详细的表格和公式解析。Nemotron-Parse正是这样一位灵活的侦探,它通过一套巧妙的"指令系统"来理解用户的具体需求。

这套指令系统包含三个独立的维度。第一个维度是关于文本格式的。如果你需要保留文档的格式结构,包括标题层级、列表、数学公式等,侦探会使用"输出Markdown"模式,将所有内容按照Markdown格式整理出来,数学公式则用LaTeX格式表示。如果你只需要纯文本内容,不关心格式,侦探会切换到"输出纯文本"模式,去掉所有格式标记,只保留文字本身。还有一种特殊情况,如果你只关心文档的布局结构,不需要文字内容,可以使用"不输出文本"模式。

第二个维度是关于位置信息的。侦探可以标注每个文本块在页面上的精确位置,以边界框的形式给出。这就像在案件报告中标注每条线索的发现地点。如果你需要这些位置信息,使用"预测边界框"指令;如果不需要,使用"不输出边界框"指令即可。

第三个维度是关于语义分类的。侦探不仅能识别文字,还能判断这些文字属于什么类型——是标题、正文、脚注还是图表说明。如果你需要这些分类信息,使用"预测类别"指令。不过,这个指令只有在请求边界框时才能使用,因为类别标签是附加在每个文本块的边界框上的。

这三个维度可以自由组合,形成多种不同的工作模式。最常用的是"最大信息提示"模式,也就是让侦探输出所有能获取的信息:格式化的文本、精确的边界框、详细的语义分类。这种模式下生成的报告最为详尽,包含了文档的全部信息。

当侦探完成调查后,会按照特定格式提交报告。边界框信息用相对坐标表示,采用1024×1280的标准化尺度,这样无论原始文档有多大,都能用统一的坐标系统来标注位置。这些边界框会按照"规范阅读顺序"排列——先是页眉,然后是正文内容(包括普通文本、段落标题、列表项、标题、公式等),最后是页脚、表格、图片和图注。这种排列方式模拟了人类阅读文档的自然顺序,让生成的报告更容易阅读和理解。

TC版本在这个基础上做了进一步优化,它改进了阅读顺序的处理方式,将那些通常"浮动"在页面特定位置的元素(如脚注、页脚、表格、图片和图注)也纳入了自然的页面顺序中。这就好比一位经验更丰富的侦探,不仅能按照时间线索整理案情,还能把那些看似游离的证据巧妙地编织进整体叙述中,让整个案件报告更加连贯流畅。

输出格式的设计也很精巧。每个文本块的边界框由四个坐标点定义:左上角和右下角的位置。文本内容夹在两组坐标之间,最后附加上语义类别标签。这样的格式既紧凑又清晰,便于后续的自动化处理。

侦探的经验积累:海量案例训练

一位侦探的能力来自于多年的办案经验。Nemotron-Parse的"经验"则来自于在海量文档上的训练。研究团队为这位数字侦探准备了丰富多样的训练材料,涵盖了各种类型的文档,从学术论文到网页内容,从简单的文本到复杂的表格。

训练数据的核心来源是一个名为NVpdftex的数据生成管线。这个管线的设计非常巧妙,它不是简单地扫描现有文档,而是从LaTeX源代码开始,在编译过程中就记录下每个字符、每个文本块的精确位置和语义类别。研究团队扩展了开源的TeX Live工具链,在编译文档的同时拦截各种内部事件——字符创建、盒子分配、标记读取、页面输出等——从而获得了字符级别的边界框和精确的语义标签。这种方法生成的训练数据质量极高,标注准确度远超传统的人工标注或后处理方法。

通过这个管线,研究团队生成了大约830万份多语言文档,涵盖英语、中文、德语、西班牙语、法语、意大利语和日语。为了进一步增强模型的多语言能力,他们还对部分文档进行了机器翻译,扩展到更多语言版本。此外,团队还在LaTeX层面进行了各种数据增强操作,改变字体、颜色、布局等,让生成的文档更加多样化,避免模型过度拟合特定的文档风格。

除了合成数据,研究团队还使用了多个公开数据集。DocLayNet是一个专门用于文档布局分析的数据集,包含约5.6万个标注样本。研究团队在原有标注基础上,增加了文本的阅读顺序标注、图片中的文字提取、Markdown格式化,以及表格和公式的LaTeX格式化。这些额外的标注让模型不仅能识别文档结构,还能理解如何正确地格式化输出。

Common Crawl是互联网内容的大型语料库,研究团队从中精选了约25.5万个多样化的样本,由人类专家进行了纯文本标注,同时附加了边界框和语义类别标签。这些来自真实网页的数据让模型见识了各种野外场景,增强了在实际应用中的鲁棒性。研究团队同样对这些数据进行了自动格式化标注,增加了Markdown和LaTeX格式的训练样本。

表格是文档解析中的一大难点,为此研究团队专门生成了大量合成表格数据。这些表格采用各种不同的样式和布局,有的稀疏,有的密集,有的包含复选框,有的嵌套多层表头。数据首先以HTML格式生成,然后转换为LaTeX,再渲染成图片,同时保留完整的结构信息。通过这种方式,模型学会了处理各种复杂表格的技巧。研究团队还使用了多个公开的表格数据集,包括SynthTabNet(48万样本)、Pubtables(58.5万样本)、Fintabnet(9.15万样本)和TabRecSet(3.82万样本),这些数据集涵盖了从学术论文到金融报表的各种表格类型。

针对密集文本的OCR任务,研究团队合成了大量包含随机词汇、字符和符号的密集文本图片,覆盖英语、中文、日语、韩语、拉丁语和希腊语等6种语言。这些合成数据帮助模型在面对文字密集的页面时也能保持高准确率。此外,团队还从多语言Wikipedia中提取了约950万份OCR数据,这些数据经过LaTeX格式化并进行了字体、背景和颜色增强,进一步丰富了训练集的多样性。

值得一提的是,研究团队将大部分合成数据和人工标注数据作为Nemotron-VLM-Dataset-V2的一部分公开发布,并在GitHub上开源了NVpdftex数据生成管线。这种开放的态度不仅推动了学术界的研究进展,也让更多开发者能够基于高质量的数据训练自己的文档解析模型。

侦探的破案实绩:多项基准测试验证

要评价一位侦探的能力,最直接的方式就是看他的破案记录。Nemotron-Parse在多个公开基准测试中展现了出色的性能,证明了它确实是一位经验丰富、能力卓越的数字侦探。

在OCR和阅读顺序评估方面,研究团队使用了一个内部精心标注的测试集,包含789页来自杂志、书籍和网络内容的PDF页面。这个测试集的特别之处在于,它不仅标注了文字内容,还明确标注了文档的阅读顺序。研究团队将Nemotron-Parse与两个知名的基线模型Kosmos-2.5和GOT进行了对比。结果显示,Nemotron-Parse的词错误率(WER)只有0.102,F1分数高达0.957,显著优于对比模型。更重要的是,即使在不遮挡页眉页脚的情况下,Nemotron-Parse也能准确识别这些元素,而某些对比模型必须遮挡这些区域才能正常工作。

TC版本虽然速度提升了20%,但准确率只有轻微下降,词错误率为0.121,F1分数为0.949,仍然保持了很高的性能水平。这证明了速度和准确率之间取得了很好的平衡。

在更广泛的GOT基准测试中,Nemotron-Parse同样表现出色。这个基准测试评估了模型在OCR、阅读顺序保持等多个维度的综合能力。Nemotron-Parse的OCR/F1得分达到0.9785,仅次于Gemini Flash 2.0,超过了包括Mistral、Marker、SmolDocling等在内的众多竞争模型。在文本阅读顺序的METEOR和BLEU指标上,Nemotron-Parse也取得了0.9858和0.9623的高分,显示出强大的文档理解能力。

OmniDocBench是一个更全面的文档理解基准测试,包含了文本、公式、表格、阅读顺序等多个子任务。在这个基准测试中,Nemotron-Parse的总体得分为0.131,在表格提取和阅读顺序保持方面表现尤为突出。特别值得一提的是,尽管模型会将简单的数学公式用Markdown格式表示而非LaTeX环境,在公式类别中受到了一定的惩罚,但在表格识别(0.118)和阅读顺序(0.066)方面的表现依然优秀,证明了模型在复杂布局理解上的能力。

TC版本在这个基准测试中的表现甚至略好于标准版本,总分为0.129,这得益于它改进的阅读顺序处理机制。虽然在某些子类别上有轻微下降,但在关键的阅读顺序任务上(0.048)表现更佳,显示出在实际应用中的优势。

表格提取是文档解析中的一大挑战,Nemotron-Parse在多个表格基准测试中都展现了强劲实力。在RD-TableBench这个包含各种野外复杂表格的数据集上,Nemotron-Parse的表格相似度得分达到85.8,仅次于专门的表格提取工具Reducto,超过了Azure、Textract、GPT-4o等商业方案。TC版本的得分为85.4,速度更快但准确率几乎没有损失。在传统的TEDS和S-TEDS指标上,两个版本在PubTabNet、OmniDocBench等多个数据集上都保持了80%以上的高准确率。

多语言能力方面,研究团队在自己生成的多语言NVpdftex测试集上进行了评估。每种语言的测试集包含1万个密集的科学文档,覆盖了各种字体和颜色变化。测试结果显示,Nemotron-Parse在英语上的F1得分达到0.98,在德语、法语、意大利语、西班牙语上均超过0.96,在中文和日语上也达到0.98。这些数字证明,模型不仅在英语文档上表现出色,在多语言环境下同样可靠。需要说明的是,对于中文、日语和韩语,由于训练数据主要来自科学文献领域,模型在这些语言的野外场景(如日常生活照片中的文字)支持相对有限,但在标准文档处理任务上完全够用。

在推理速度方面,研究团队在单张H100 GPU上测试了模型的吞吐量。标准版本每秒能处理3800个词元,大约相当于每秒处理4个普通文档页面。TC版本每秒能处理4500个词元,相当于每秒5个页面,速度提升约18%。考虑到模型的高准确率,这样的处理速度已经能够满足大多数实际应用场景的需求。


侦探的工具箱:开放使用与优化部署


NVIDIA不仅开发了这位出色的数字侦探,还把它的"工具箱"完整地开放给了公众。研究团队在Huggingface平台上发布了Nemotron-Parse 1.1和Nemotron-Parse 1.1-TC两个版本的模型权重,支持fp32和bf16两种精度格式。用户可以直接下载使用,无需从零训练。模型还集成了VLLM支持,这是一个专门针对大语言模型优化的推理引擎,能够显著提升推理速度和降低内存占用。

对于追求极致性能的用户,NVIDIA还提供了优化后的NIM容器版本。NIM是NVIDIA推出的容器化部署方案,针对NVIDIA GPU进行了深度优化,包括计算图优化、内核融合、量化加速等技术,能够充分发挥GPU的性能潜力。通过NIM容器,用户可以更方便地将Nemotron-Parse部署到生产环境中,无需担心复杂的环境配置和性能调优问题。

值得一提的是,研究团队还开源了核心的数据生成管线NVpdftex。这个管线是整个项目的重要基础,它展示了如何从LaTeX源代码中精确提取文档结构信息。对于研究人员和开发者来说,这个开源管线不仅可以用来生成自己的训练数据,更重要的是可以学习其中的设计思路和实现细节,应用到其他文档处理任务中。管线的代码托管在GitHub上的NVIDIA-NeMo/Curator项目中,任何人都可以查看、使用和改进。

此外,研究团队还将大量训练数据作为Nemotron-VLM-Dataset-V2的一部分公开发布。这个数据集包含了多语言文档、表格、公式等各种类型的标注样本,总量超过2000万条。对于希望训练自己的文档解析模型的研究者来说,这是一份宝贵的资源。高质量的训练数据往往是模型性能的关键因素,NVIDIA的这种开放态度大大降低了其他研究团队的入门门槛。

技术突破的背后:关键设计决策

回顾Nemotron-Parse的开发过程,有几个关键的设计决策值得深入探讨,它们共同造就了这位数字侦探的卓越能力。

第一个重要决策是采用端到端的架构设计。传统的文档处理系统通常采用多阶段流水线:先用OCR识别文字,再用布局分析工具确定结构,然后用专门的工具提取表格和公式,最后还可能需要后处理来修正错误。这种方法的问题在于,每个阶段都可能引入错误,而且这些错误会在流水线中累积传播。更重要的是,各个阶段之间的信息传递是单向的,后面的阶段无法反馈信息来修正前面阶段的错误。

Nemotron-Parse采用的端到端架构则完全不同。视觉编码器和语言解码器是联合训练的,它们之间可以双向传递信息。在生成文本的过程中,解码器可以"回头看"视觉特征,根据上下文调整对图像的理解。这种紧密集成的设计让模型能够同时优化多个子任务,在文本识别、布局理解、格式生成之间找到最优的平衡点。实验结果表明,这种端到端的方法在保持高准确率的同时,显著提升了处理速度。

第二个关键决策是放弃位置编码。这个决策看似简单,实则经过了深思熟虑。位置编码是Transformer架构的标准组件,用来告诉模型每个词在序列中的位置。然而研究团队发现,在文档处理任务中,位置信息已经隐含在视觉特征中了——文字在页面上的坐标、段落的排列方式等都是天然的位置信号。通过因果注意力机制(每个词只能看到它前面的词),解码器自然能够推断出自己在序列中的位置。

去掉位置编码带来了多重好处。首先是简化了模型架构,减少了参数量。其次,也是更重要的,使得模型能够处理任意长度的序列。传统的位置编码通常有一个预设的最大长度,超过这个长度就需要通过插值等技术来扩展,但这往往会损害性能。无位置编码的设计则完全没有这个限制,无论文档有多长,模型都能以同样的方式处理。实验证明,这种设计在处理超长文档时表现更加稳定。

第三个关键决策是多词元预测技术的应用。传统的自回归解码每次只预测一个词元,这在文档处理场景下效率较低,因为文档往往包含大量文本。研究团队引入了多词元预测机制,允许模型同时预测多个词元。虽然这增加了一些训练复杂度(需要额外的预测头和训练策略),但带来的速度提升是显著的。更有趣的是,即使在推理时仍然使用单词元预测,多词元训练过程中学到的知识也能提升模型的整体性能,这可能是因为多词元预测迫使模型学习更好的长距离依赖关系。

第四个关键决策是灵活的提示系统设计。不同的应用场景对文档解析有不同的需求,有的只需要纯文本,有的需要保留格式,有的还需要位置和分类信息。研究团队设计了一套模块化的提示系统,允许用户自由组合不同的输出选项。这种设计的好处是,只需要训练一个统一的模型,就能适应多种不同的使用场景,大大提高了模型的实用性。在训练时,每个样本根据其标注信息选择相应的提示组合,让模型学会根据提示灵活调整输出。

第五个关键决策是两个版本的发布策略。标准版本追求最高的准确率,适合对质量要求极高的场景。TC版本则在准确率和速度之间找到了更好的平衡点,通过视觉特征压缩实现了20%的速度提升,同时保持了接近标准版本的准确率。这种双版本策略让用户可以根据自己的实际需求选择合适的版本,体现了NVIDIA对不同应用场景的深入理解。

至顶AI实验室洞见

Nemotron-Parse的推出标志着文档理解技术进入了一个新阶段,但这并不意味着发展的终点。从技术层面看,还有许多方向值得探索。

当前的模型在处理标准文档时表现出色,但面对极端情况时仍有改进空间。例如,手写文字的识别、严重扭曲或模糊的图像、复杂的多栏布局等,这些场景下的性能还可以进一步提升。研究团队已经意识到这些挑战,在数据生成和模型训练方面都预留了扩展的空间。

多语言能力也是一个值得继续投入的方向。虽然模型已经支持多种语言,但对某些语言(特别是中日韩语言)的支持主要限于科学文献和标准文档,在野外场景下的表现还有待加强。这需要收集更多样化的训练数据,特别是来自真实世界的、包含各种背景和文字样式的图像。

从应用角度看,Nemotron-Parse的潜力非常广阔。在学术研究领域,它可以帮助研究人员快速提取和整理大量文献中的关键信息,建立知识图谱,发现研究趋势。在企业环境中,它可以用于自动化处理合同、报告、发票等各种商业文档,提升办公效率。在数字化档案管理方面,它可以帮助图书馆、博物馆等机构将纸质文档转换为结构化的电子档案,便于检索和保存。

对于开发者而言,Nemotron-Parse提供了一个坚实的基础。通过开源的数据生成管线和公开的训练数据,开发者可以在此基础上定制自己的文档解析系统,针对特定领域或特定任务进行优化。例如,可以针对医疗病历、法律文书、金融报表等专业领域开发专用模型,在保持通用能力的同时提升专业领域的性能。

NVIDIA这次不仅发布了技术成果,更重要的是展现了一种开放合作的态度。通过开源代码、公开数据、提供预训练模型,NVIDIA为整个社区的发展做出了贡献。这种开放的生态有助于加速文档理解技术的普及和应用,让更多人能够从中受益。

Nemotron-Parse不仅仅是一个技术工具,更代表了一种理念:让机器更好地理解人类创造的文档,从而解放人类的生产力。当我们不再需要花费大量时间手工整理文档、提取信息时,就可以把精力投入到更有创造性的工作中。这正是人工智能技术发展的初衷,也是Nemotron-Parse这位数字侦探努力的方向。

论文地址:

https://arxiv.org/pdf/2511.20478

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。


Q&A

Q1:Nemotron-Parse 1.1相比前一代版本有哪些主要改进?

A:Nemotron-Parse 1.1是Nemoretriever-Parse 1.0的升级版,主要改进包括:通用OCR准确率提升,markdown格式化能力增强,结构化表格解析性能提升,能够从图片、图表和示意图中提取文字,支持更长的输出序列长度以处理文字密集的文档,同时仍然保持提取文本边界框和语义分类的能力。此外还推出了TC版本,在质量几乎不降低的情况下速度提升20%。

Q2:Nemotron-Parse 1.1的轻量化体现在哪些方面?

A:Nemotron-Parse 1.1总参数量为8.85亿,在同类文档解析模型中属于较小规模。其中语言解码器仅有2.56亿参数,通过精简的mBART架构(10层网络)和权重共享技术实现。视觉编码器使用6.57亿参数的RADIO模型,并通过视觉颈部组件将特征序列压缩。TC版本更进一步,将视觉token长度减少到833个,实现16倍压缩。尽管参数精简,模型在多个基准测试中仍表现出色。

Q3:普通用户和开发者如何使用Nemotron-Parse 1.1?

A:NVIDIA在Huggingface平台公开发布了Nemotron-Parse 1.1和TC版本的模型权重,支持fp32和bf16精度,集成了VLLM推理引擎。用户可以直接下载使用。对于生产环境,NVIDIA还提供了优化的NIM容器版本,经过深度性能优化。此外,NVIDIA开源了NVpdftex数据生成管线和大量训练数据(Nemotron-VLM-Dataset-V2),开发者可以基于这些资源定制自己的文档解析系统。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询