支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


万字长文:OCR/多模态大模型评测体系全景

发布日期:2025-05-16 20:43:17 浏览次数: 1531 作者:信息化与数字化
推荐语

深入解析OCR技术与多模态大模型在文档数字化领域的应用挑战与评测体系。

核心内容:
1. 多模态大模型在视觉问答和图文推理中的能力表现
2. 多模态大模型在复杂OCR任务中面临的挑战与评测基准
3. 系统梳理主流多模态评测基准,分析比较其构成与未来方向

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

在金融、医疗、政务等对准确性要求极高的领域中,文档数字化一直是智能化转型的关键一环。传统的OCR技术凭借超过90%的识别准确率和240毫秒级别的极速响应,早已广泛应用于单据、合同、发票、身份证等场景。然而,面对更复杂的挑战,例如表格中错综复杂的合并单元格结构、跨页合同条款的逻辑关联,以及模糊发票中语义的连贯推断,专用的小模型逐渐暴露出难以突破的局限性。

近年来,多模态大模型(Multimodal Large Models, MLLMs)的迅猛发展为这一领域注入了新的可能。这些模型在视觉问答、图文推理、结构化信息提取等方面表现出了前所未有的强大能力,很好的将视觉模型与语言模型结合起来,并且展现了很好的泛化能力,似乎预示着一个全能型大模型取代传统专用模型的时代即将到来。

但现实并非如此简单。尽管MLLMs在多种任务中表现出色,它们在复杂文本识别、图表理解、视频推理以及专业领域推断等方面仍面临诸多挑战。例如,最新的OCRBench v2评估显示,当前22个主流MLLM中有20个在复杂OCR任务中的得分低于50分(满分100),暴露出在文本定位、手写内容提取和逻辑推理等方面的明显短板 。

多模态大模型在不同类型场景下的能力存在明显差异,尤其是在复杂文本识别、图表理解、视频推理、专业领域推断等任务中仍面临诸多挑战。因此,构建系统、客观、全面的评测体系,成为推动多模态智能落地的关键前提。近年来,学术界和工业界围绕不同模态、任务与场景,提出了多种具有代表性的评测基准,覆盖从自然图文识别、结构化表格解析,到工程设计问答、视频语义推理等多类任务类型。这些评测体系不仅考察模型的感知与认知能力,还开始延伸至指令遵循、上下文一致性、幻觉控制、语义保真度等高级能力维度。

本文将系统梳理当前主流的多模态评测基准,包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchmark 等,通过对其提出背景、作者机构、任务设计、评估指标、模型适用性等方面进行分析比较,帮助读者全面理解当前多模态大模型评测版图的构成、演化趋势及未来方向。

项目名称
GitHub仓库地址
Star数量
OCRBench v2
Yuliang-Liu/MultimodalOCR
609
SEED-Bench-2-Plus
AILab-CVC/SEED-Bench
339
ConTextual
rohan598/ConTextual
25
Fox
ucaslcl/Fox
146
TableVQA-Bench
naver-ai/tablevqabench
38
ComTQA
 sakura2233565548/TabPedia
34
MMTab-eval
SpursGoZmy/Table-LLaVA
202
ChartY
LingyvKong/OneChart
224
ChartX
Alpha-Innovator/ChartVLM
220
MMC
FuxiaoLiu/MMC
96
CC-OCR
 AlibabaResearch/AdvancedLiterateMachinery
1700
Video-MME
BradyFU/Video-MME
549
MME
BradyFU/Awesome-Multimodal-Large-Language-Models
15.1k
BLINK
 zeyofu/BLINK_Benchmark
124
ChEF
OpenGVLab/LAMM
312
GenCeption
EQTPartners/GenCeption
12
DesignQA
MIT-DESign-Lab/DesignQA
34
MMT-Bench
OpenGVLab/MMT-Bench
110
Omni AI OCR Benchmark
getomni-ai/benchmark
483


1. OCRBench v2:多场景文本识别与理解基准

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text ...

提出背景:

随着多模态大模型(LMMs)在图像文字识别方面取得显著进展,其在文字定位、手写识别、逻辑推理等复杂任务中的能力仍存在不足。为填补这一空白,华中科技大学白翔团队等研究者推出了升级版 OCRBench v2 基准,旨在全面评估 LMMs 在多场景文本理解任务中的表现。

作者机构:

该基准由华中科技大学、南方科技大学、华南理工大学、字节跳动等机构合作完成,作者阵容庞大,体现了产学研结合。

任务类型与数据:

OCRBench v2 是一个大型双语文本中心多任务评测集,覆盖 31 种多样场景,如街景、票据、公式、图表等。相比前代 OCRBench,任务数量增加了 4 倍,囊括文本识别、定位、版面理解、手写内容提取、文本推理等子任务,提供了 1 万个人工核验的问答对,包含高比例的困难样例。

评估指标:

该基准设计了全面的评估指标体系。例如,对于文本识别任务使用准确率,文本定位任务采用定位精度,复杂问答任务则结合精确匹配和人工评价。模型最终得分以 100 为满分综合衡量,多数现有模型在此基准下得分低于 50。

模型适用性与特色:

OCRBench v2 专注评估多模态模型的 OCR 能力。测试发现,当前 20 个主流多模态模型在该基准上得分均不足 50,暴露出五大类局限,包括对生僻文本的识别、细粒度感知、版面理解、复杂元素解析和逻辑推理等问题。这凸显了 OCRBench v2 作为最全面的文字领域评测所具有的价值,为模型在 OCR 场景下的短板提供了诊断工具。


参考资料:

• 论文地址
https://arxiv.org/abs/2501.00321
• GitHub项目地址与数据集
https://github.com/Yuliang-Liu/MultimodalOCR

2. SEED-Bench-2-Plus:文本密集视觉理解基准

SEED-Bench: 一个用于评估多模态大语言模型的综合基准 - 懂AI

提出背景:

在现实世界中,许多图像场景(如地图、网页、图表等)包含大量嵌入式文本,要求模型具备强大的文本密集型视觉理解能力。然而,现有的多模态大模型评测基准主要关注一般视觉理解任务,缺乏对这类场景的专项评估。为此,研究者推出了 SEED-Bench-2-Plus,专门用于衡量模型在文本密集图像中的表现。

作者机构:

该基准由腾讯 AI Lab、腾讯 ARC Lab 以及香港中文大学(深圳)数据科学学院的研究人员联合提出,主要作者包括李博豪、葛雨颖、陈奕、葛一笑、张瑞卯和单映等。

任务类型与数据:

SEED-Bench-2-Plus 提供了 2,300 道多项选择题,涵盖三个主要场景类别:图表(Charts)、地图(Maps)和网页(Webs)。每个类别下包含多个真实世界中的文本密集场景,共计 63 种具体数据类型,如流程图、甘特图、组织结构图、政治地图、热力图、维基百科页面等。所有题目均由人工精确标注,确保评估的准确性和可靠性。

评估指标:

该基准采用客观的多项选择题形式,主要评估指标为选择题的准确率。通过统一格式的问题选项,可以直接比较模型在各类题目的答题正确率,同时统计不同类别场景下模型的细分类表现。

模型适用性与特色:

SEED-Bench-2-Plus 面向多模态大模型的文本场景理解能力评估。在测试了包括 GPT-4V、Gemini-Pro-Vision、Claude-3-Opus 等 34 个知名模型后,结果强调了模型在文本密集场景中的局限性。例如,一些模型在图表解读上仍有困难。这一基准为社区提供了统一且细致的文本视觉理解考卷,也延续了 SEED-Bench 系列多维度评测的思想,不仅关注文本,还评估图像生成等综合能力。


参考资料:

• 论文地址
https://arxiv.org/abs/2404.16790
• GitHub项目地址与数据集
https://github.com/AILab-CVC/SEED-Bench
• Hugging Face数据集
https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2-Plus

3. ConTextual:上下文敏感的文本视觉推理基准

ConTextual

提出背景:

随着多模态大模型(LMMs)在图文结合任务中取得显著进展,其在处理需要上下文理解的文本视觉推理任务方面仍存在挑战。例如,读取钟表时间、根据路牌导航、理解购物小票等任务,要求模型不仅识别图像中的文字,还需结合视觉上下文进行推理。为评估模型在这类场景中的能力,加州大学洛杉矶分校(UCLA)的研究团队提出了 ConTextual 基准。

作者机构:

该基准由加州大学洛杉矶分校(UCLA)的 Rohan Wadhawan、Hritik Bansal、Kai-Wei Chang 和 Nanyun Peng 等人提出,论文已被 ICML 2024 主会接收。

任务类型与数据:

ConTextual 基准包含 506 个多样化的真实场景指令,重点考察模型对情境文本的理解与推理能力。场景包括:

  • 读时间(如读取钟表表盘)

  • 导航(如根据地图标识找路)

  • 购物(如解析商品价格标签)

  • 网络信息(如理解网页内容)

  • 抽象场景(如表情包和引用解读)Hugging Face

这些任务要求模型结合图像内容和其中的文字语境给出答案,问题以指令形式呈现,要求模型进行开放式回答,贴近真实应用中的提问方式。

评估指标:

ConTextual 采用人工评估和 GPT-4 自动评估相结合的方式评测模型表现。一方面,通过让人类对模型回答与正确答案进行对比打分来衡量模型接近人类的程度;另一方面,引入 GPT-4 对模型回答进行评分,结果显示两种评价方式趋势相似。最终以准确率等指标量化模型成绩,同时特别关注模型与人类表现的差距。

模型适用性与特色:

该基准发现,即使是目前最强的 GPT-4V(ision),在这些上下文文本推理任务上的准确率也比人类低约 30%。GPT-4V 在解读抽象类任务(如表情包含义)上表现突出,但整体仍明显落后于人类。这说明多模态模型在情境敏感理解方面尚有巨大提升空间。ConTextual 为模型提供了丰富场景下的综合考验,有助于发现模型在日常复杂场景中的短板,推动更具上下文意识的多模态模型研究。


参考资料:

    • 论文地址
    https://arxiv.org/abs/2401.13311
    • GitHub项目地址与数据集
    https://github.com/rohan598/ConTextual
    • Hugging Face数据集
    https://huggingface.co/datasets/rohan598/ConTextual


    4. Fox:细粒度多页文档理解基准

    提出背景:

    尽管大型视觉语言模型(LVLM)在文档理解上取得了显著进展,但在细粒度层面的理解仍面临诸多挑战。例如,用户可能只关注文档某个区域的 OCR 识别、翻译或摘要;又或需要结合整个页面甚至跨页内容来回答问题。现有模型往往难以灵活地“聚焦”到用户关心的文档局部。为此,中国科学院大学与旷视科技(MEGVII)的联合团队提出了 Fox(Focus Anywhere)框架,并构建了对应的评测基准,以衡量模型在任意位置对焦的文档理解能力。

    作者机构:

    该基准由中国科学院大学与旷视科技(MEGVII)的联合团队提出,主要作者包括刘成龙、魏浩然、晁靖悦等人,论文于 2024 年 5 月发布在 arXiv 上。

    任务类型与数据:

    Fox 提出了一个包含 9 个细粒度子任务的文档理解基准。这些任务涵盖:

    • 页面 OCR:整页文字的识别(中英文各一套)

    • 区域 OCR:指定区域(方框)内文字识别

    • 行级 OCR:指定行文字识别

    • 颜色标记 OCR:基于颜色提示读取对应区域文字

    • 区域翻译:将英文区域文字翻译成中文

    • 区域摘要:对英文区域内容生成摘要

    • 图中图像说明:识别页面中内嵌图像的字幕/说明

    • 多页 OCR:跨 8 页的多区域文字提取

    • 跨页问答:基于多页文档内容进行问答

    这些任务的数据来自真实 PDF 文档的截取,涵盖中文和英文两种语言,考察模型对多页、多区域、多语言文档的理解能力。

    评估指标:

    每个子任务都有专门的评估指标。例如,OCR 类任务使用识别准确率(比对识别文本与人工标注);翻译和摘要任务可能采用 BLEU、ROUGE 等文本评价指标;问答任务则关注答案的准确匹配度或由 GPT 评分。为确保评估的可靠性,作者对题目答案进行了人工校验。

    模型适用性与特色:

    Fox 基准强调模型在复杂文档任意位置对焦的能力,这在以前的评测中鲜有覆盖。通过该基准,研究者验证了他们提出的 Fox 方法在这些细粒度任务上的优越性。更广泛地,该评测为社区提供了一个细粒度文档分析的标准尺,为模型在文档 OCR、翻译、摘要、多页推理等方面的弱点提供了诊断工具,补足了以往仅评估整页问答或分类的不足。


    参考资料:

    • 论文地址
    https://arxiv.org/pdf/2405.14295
    • GitHub项目地址与数据集
    https://github.com/ucaslcl/Fox  https://arxiv.org/pdf/2405.14295

    5. TableVQA-Bench:多领域表格问答基准

    TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains | Papers With Code

    提出背景:

    表格是信息展示的重要形式。然而,以往的表格问答数据集(如 WikiTableQuestions、TabFact)基于结构化文本表格,缺少图像形式的表格;另一方面,表格结构识别数据(如 FinTabNet)又缺少问答对。为评估模型对真实表格图像的问答能力,NAVER AI 的研究者构建了 TableVQA-Bench 基准。

    作者机构:

    该基准由韩国 NAVER AI 团队的金润植(Yoonsik Kim)、Moonbin Yim 和 Ka Yeon Song 等人提出,并提供了公开数据集和代码。

    任务类型与数据来源:

    TableVQA-Bench 从现有数据集中获取表格并生成相应的图像和问答对,涵盖多个领域的表格:

    • VWTQ:将 WikiTableQuestions 中的维基百科表格用网页样式渲染为图像,并保留其问答对。

    • VTabFact:将 TabFact 数据集中的表格同样渲染成图像,问答对为原始的判断题陈述转化而来。

    • FinTabNetQA:针对 FinTabNet 金融表格数据,该数据原本只有表结构注释,研究者用 GPT-4 为每个表自动生成若干问答对。

    通过样式表附加或自研的表格渲染系统获取高清表格截图。最终整个基准汇总了约 1500 对图像表格问答,内容涵盖百科知识、事实验证、财报数据等多种表格类型。为保证质量,任何包含 50 行以上的大表格样本都被过滤掉,并由作者进行人工复核。

    评估指标:

    由于采用问答形式,主要指标是问答准确率。研究者比较了多种开放和商用多模态模型在 TableVQA-Bench 上的表现,统计它们回答 1500 道问题的正确率。其中也分析了模型对于不同子集(VWTQ、VTabFact、FinTabNetQA)的表现差异。

    模型适用性与特色:

    评测结果显示,在所测试的模型中,GPT-4V 取得最高准确率,领先于开源模型。然而,与让纯文本 LLM 直接读取表格文本相比,多模态模型处理图像表格仍有明显劣势——即使 GPT-4V 这种多模态模型,其表现也低于 GPT-4 直接处理表格文本的情况。这说明视觉形式比纯文本形式更具挑战,模型在图像解析上损失了一些精度。TableVQA-Bench 的价值在于填补了视觉表格问答评测的空白,通过融合不同来源的数据,它为模型在表格理解(包括结构和语义)提供了统一测评平台,有助于推动相关模型提升图像表格解析能力。


    参考资料:

    • 论文地址
    https://arxiv.org/abs/2404.19205
    • GitHub项目地址与数据集
    https://github.com/naver-ai/tablevqabench
    • Hugging Face数据集
    https://huggingface.co/datasets/naver-ai/TableVQA-Bench

    6. ComTQA:复杂表格问答基准

    提出背景:

    表格问答(Table Question Answering, TQA)任务在真实世界中具有广泛应用。然而,现有的表格问答数据集如 WikiTableQuestions、TabFact 等,主要基于结构化文本表格,问题复杂度有限,且缺乏对真实表格图像中复杂问题的评估。为此,中国科学院信息工程研究所与百度等机构的研究者提出了 ComTQA(Complex Table Question Answering)基准,旨在评估模型对真实表格图像中复杂问题的处理能力。

    作者机构:

    ComTQA 基准由中国科学院信息工程研究所、百度等机构合作完成,郑明宇等人为主要作者。该基准是在 TabPedia 项目中引入,旨在推动表格理解任务的发展。

    任务类型与数据来源:

    ComTQA 基准从真实世界的表格图像中提取问题。具体而言,作者选取了 FinTabNet 和 PubTab1M 中约 1500 张具有代表性的表格图像,结合表格内容设计出约 9000 个高质量问答对。这些问题相比以往更加复杂,特点包括:

    • 多答案问题一个问题可能对应多个答案,需要模型找全所有满足条件的表格项。

    • 数学计算需要根据表格数据进行算术运算推得答案。

    • 逻辑推理结合多个单元格信息进行比较、判断才能得到结论。

    例如,在财务报表表格中询问“哪几年的利润高于支出且增长率超过一定阈值”之类的问题。问题涵盖真实场景多样性,超出了 WikiTableQuestions 等数据集的大部分问答复杂度。

    评估指标:

    ComTQA 主要采用准确率(Accuracy)评估模型答案是否正确。同时由于部分问题有多答案,可能还考虑 Precision/Recall。在 TabPedia 论文中,作者将模型在 WTQ、TabFact 和 ComTQA 上的准确率进行对比。结果表明 ComTQA 更具挑战性,可拉开模型表现差距。

    模型适用性与特色:

    ComTQA 的引入为社区提供了一个复杂程度更高的表格问答测试集。作者希望其能作为衡量模型高级表格理解能力的基准。实验中,TabPedia 模型在 ComTQA 上取得了有竞争力的成绩,但现有开源和封闭源模型在该数据集上的表现都明显低于在 WTQ 等简单任务上的表现。这说明真实图像表格与复杂问题的组合对当前模型是相当大的挑战。ComTQA 填补了这方面评测的空白,对于开发能够处理真实世界表格并进行推理的大模型具有重要意义。


    参考资料:

      • 论文地址
      https://arxiv.org/abs/2406.01326
      • GitHub项目地址与数据集
      https://github.com/sakura2233565548/TabPedia

      https://huggingface.co/datasets/ByteDance/ComTQA


      7. MMTab-eval:多任务表格理解评测基准

      提出背景:

      在多模态大模型(Multimodal Large Language Models, MLLMs)快速发展的背景下,表格理解成为一个关键挑战。传统方法通常将表格转换为文本格式(如Markdown或HTML)供模型处理,但在实际应用中,获取高质量的结构化表格文本并不容易。因此,如何直接通过视觉信息理解表格成为一个亟待解决的问题。为此,中国科学院信息工程研究所、国科大与百度合作,提出了 MMTab-eval 基准,旨在全面评估模型在表格理解各任务上的表现。

      作者机构:

      该基准由中国科学院信息工程研究所、国科大与百度合作完成,第一作者为郑明宇等人。相关研究成果已被 ACL 2024 主会接收,并提出了相应的模型 Table-LLaVA。

      任务类型与数据:

      MMTab-eval 包含多达 17 项“已知”任务和 7 项“全新”任务的测试集合,合计约 4.9 万条测试样本,覆盖 2.3 万张表格图像。这些任务涵盖:

      • 表格检测:从文档中定位出所有表格。

      • 表格结构识别:解析表格的行列结构、单元格合并关系等。

      • 表格内容提取:读取表格中的文本或数值内容。

      • 表格问答(TQA):基于表格内容回答自然语言问题。

      • 表格事实验证(TFV):判断给定陈述在表格内容中是否为真。

      • 表格描述生成(T2T):将表格数据生成一段描述性文字。

      • 其他:包括新的多模态表格结构理解任务等。

      为了考查模型的泛化能力,作者将训练中出现过的数据集作为“held-in”,未出现的新数据作为“held-out”来分别评测。

      评估指标:

      MMTab-eval 针对不同任务采用不同指标并综合考量:

      • 检测任务:使用 mAP 指标。

      • 结构解析:使用结构匹配分数(如 TEDS)。

      • 问答和验证:使用准确率。

      • 生成描述:使用 BLEU、ROUGE 等指标。

      最终报告模型在每个子基准以及总体上的表现,同时区分 held-in 与 held-out 成绩,以衡量模型对新表格场景的零样本泛化能力。

      模型适用性与特色:

      作为目前最全面的表格理解评测集之一,MMTab-eval 展现了模型在丰富多样的表格任务上的能力版图。Table-LLaVA 模型在该基准的 24 个子任务中有 14 个达到或接近 GPT-4V 水平,尤其在一些模型未见过的新任务上,Table-LLaVA 表现出较强的泛化性。这表明通过大规模多任务训练,模型可以习得一定的表格通用技能。对于其他模型,MMTab-eval 则揭示了它们在跨任务和跨域情境下的优劣势,为后续改进提供了指导。


      参考文献:

      • 论文地址
      https://arxiv.org/abs/2406.08100
      • GitHub项目地址与数据集
      https://github.com/SpursGoZmy/Table-LLaVA
      • Hugging Face数据集
      https://huggingface.co/datasets/SpursgoZmy/MMTab

      8. ChartY:图表结构解析基准


      1. 提出背景

      图表(如柱状图、折线图、饼图等)在数据可视化中扮演着重要角色。然而,自动解析图表中的结构信息,如数据点、轴标签、图例说明等,对于模型而言是一项复杂的任务。现有的一些端到端图表解析模型参数庞大,但在提取精确结构信息方面效果不佳。为评估和推动这方面能力,中国科学院大学与旷视科技的联合团队提出了ChartY基准。

      2. 作者机构

      ChartY由中国科学院大学与旷视科技(MEGVII)的联合团队提出,主要作者包括陈瑾玥等人。该基准在论文《OneChart: Purify the Chart Structural Extraction via One Auxiliary Token》中被引入。

      3. 任务类型与数据

      ChartY是一个大规模的图表结构提取评测集,包含约6000张多样化图表。这些图表涵盖广泛的主题和类型,并包含中英文两种语言。作者对图表解析任务进行了规范化,包括从柱状图、折线图、饼图等各种图表中提取数据点、轴标签、图例说明等结构化信息。ChartY数据集按照图表是否含数值标注、语言类别等进行了多样性扩充。其中ChartY-en为英文图表,ChartY-zh为中文图表,两者共同构成对模型跨语言、跨风格能力的考验。

      4. 评估指标

      主要采用平均精度(AP)等指标评估模型提取的图表数据与真实值的匹配程度。例如,一个模型将图表解析成Python字典格式,然后与人工标注的字典逐项比对,计算数值和标注位置的准确率。作者特别引入严格和宽松两种评测标准,衡量模型在精确匹配和部分正确上的表现。此外,OneChart论文还提出了利用辅助token评估模型置信度的机制,以判断解析结果可靠性。

      5. 模型适用性与特色

      ChartY基准为图表理解提供了一个全面且标准化的评测平台。相较此前偏重问答的图表任务,ChartY强调底层数据提取,可作为对模型高精度感知能力的检验。OneChart模型在ChartY-en和ChartY-zh上取得了显著领先于其它模型的成绩,展现了对不同语言和风格图表的健壮性。总体而言,ChartY的建立弥补了纯QA型图表基准的不足,与ChartX等认知任务互为补充:它要求模型先做好“看图读数”的功夫,为后续更复杂的推理奠定基础。这一评测有助于推动更精准的图表信息提取方法,为多模态模型在数据可视化领域的应用打下基础。

      参考文献

      • 论文地址
      https://arxiv.org/abs/2404.09987
      • GitHub项目地址与数据集
      https://github.com/LingyvKong/OneChart


      9. ChartX:复杂图表推理评测基准

      提出背景:

      尽管多模态大模型(MLLMs)在视觉问答等任务上取得了显著进展,但在图表信息查询与推理方面的研究仍显不足。图表通常包含抽象符号和数据模式,模型需要同时具备数值理解和逻辑推理的能力。为全面评估这一能力,上海人工智能实验室与上海交通大学的研究团队提出了 ChartX 基准。

      作者机构:

      ChartX 由上海人工智能实验室与上海交通大学的夏任秋、张博、严骏驰等人共同提出,相关论文发表于 arXiv,并附带了专用模型 ChartVLM 的发布。

      任务类型与数据:

      ChartX 是一个多任务的图表评测集,涵盖:

      • 18 种图表类型

      • 22 个学科领域主题

      • 7 类任务

      每个图表样本同时提供四种模态信息:图像、对应数据的 CSV 表、生成图表的代码,以及图表文字描述。

      7 类任务根据难度分为两大类:

      感知类任务:

      • 图表结构提取

      • 图表类型分类

      • 图表标题提取arXiv+9arXiv+9CSDN+9

      这些任务关注直接从图像获取结构化信息,如识别柱状图的每个柱子高度数值,判断图表类型等。

      认知类任务:

      • 图表问答(QA)

      • 图表描述生成

      • 图表摘要

      • 图表重绘


      这些任务要求模型在提取数据的基础上进行深度理解和生成,例如回答关于图表内容的问题、用自然语言总结图表信息,甚至根据数据重新绘制图表。

      整个 ChartX 评测共收集了 4.8 万张图表数据,确保每种图表类型和任务都有大量高质量样本。例如,在 QA 任务中,问题可能是“哪个年份的值达到峰值”,要求模型解析曲线找出最大值并给出年份。

      评估指标:

      ChartX 使用针对任务定制的指标:

      • 感知类任务:

        • 准确率(Exact Match)

        • 平均精度(Average Precision)

      • 认知类任务:

        • GPT-4 评分(GPT-score)

        • SCRM 等评价指标

      通过这些指标,全面衡量模型在每一子任务的表现,并提供排行榜。

      模型适用性与特色:

      作为目前任务覆盖最广的图表评测,ChartX 为主流多模态模型与专门图表模型提供了公平的竞技场。作者提出的 ChartVLM 模型在 ChartX 上整体表现优于其他通用多模态大模型,成绩可比肩 GPT-4V。这验证了在模型中引入图表感知模块并“先感知后推理”的有效性。相比之下,一般大模型如 ChatGPT 视觉版在没有特殊训练下很难兼顾所有 7 类任务。ChartX 的推出,不仅填补了图表领域综合评测的空白,也提供了一个检验模型可解释性的新角度——通过将结构提取结果融入推理,来提升复杂推理的可信度。这一基准有望引领后续更完整的图表评测体系出现,推动多模态模型在数据分析与可视化理解方面的进步。

      参考资料:

      • 论文地址
      https://arxiv.org/abs/2402.12185
      • GitHub项目地址与数据集
      https://github.com/Alpha-Innovator/ChartVLM
      • Hugging Face数据集
      https://huggingface.co/datasets/Alpha-Innovator/ChartX


      10. MMC:大规模指令调优的图表理解评测

      提出背景:

      图表图像与自然场景图像存在显著差异,包含抽象组件(如坐标轴、趋势线等),这使得通用视觉大模型在图表理解上存在挑战。为了缩小这一差距,美国马里兰大学和腾讯AI Lab合作提出了MMC(MultiModal Chart)项目,包括大规模指令数据和评测基准。

      作者机构:

      该基准由马里兰大学和腾讯西雅图AI实验室的刘扶潇、陈建树、宋凯强等人联合提出,论文已被NAACL 2024接收。

      任务类型与数据:

      MMC项目的评测部分称为MMC-Benchmark,提供了一个综合的人工标注基准,涵盖9种不同的图表理解任务。具体任务包括:

      • 图表信息提取:从图表中提取特定数据或字段。

      • 图表推理:对图表数据进行推理问答,例如比较趋势、预测关系。

      • 情境化图表理解:结合图表的上下文或背景信息进行问答。

      • 图表主题分类:判断图表所属的主题领域(商业、健康等)。

      • 股票图分析:针对股票K线等特殊图表的解读。

      • 多图表理解:同时理解并比较多张相关图表的信息。

      • 图表类型分类:识别图表的类型(饼图、散点图等)。

      • 图表转表格:将图表内容转换为数据表格。

      • 图表转JSON:将图表内容解析成JSON结构数据。

      这些任务覆盖了从低层结构到高层语义的多个方面。MMC-Benchmark中的问题均由人工精心设计并标注答案,涉及各种话题(商业、健康、科学等)和多种图表类型。同时,作者还构建了MMC-Instruction数据集,包含60万生成的图表指令任务,用于微调模型,使之更好适应上述任务。

      评估指标:

      对于MMC-Benchmark,团队采用多指标结合的评测方案。封闭式任务(如分类)使用准确率,开放式任务(如问答、描述)则使用GPT-4评分和人工审核相结合。此外,还设计了细粒度评估以判别模型对各种图表元素的把握程度。通过在MMC-Benchmark上的大量实验,研究者可以找出各模型在九大任务上的短板。

      模型适用性与特色:

      利用MMC-Instruction数据微调得到的MMCA(MultiModal Chart Assistant)模型在现有图表问答基准上达到领先表现。然而,即便是强如GPT-4V,在MMC-Benchmark九类任务上的表现仍不理想,常出现误读图表、推理错误等问题。这凸显了图表理解的挑战性以及MMC评测的重要性。值得注意的是,MMC强调了大规模指令学习结合全面评测的范式:一方面用海量合成任务提升模型能力,另一方面用严谨标注的数据检验模型极限。这种思路为多模态模型在垂直领域的评测提供了借鉴。随着MMC等基准的推出,我们对于模型在图表领域的认知将更加清晰,也为未来开发能够正确解读复杂图表的大模型奠定基础。

      参考资料:

      • 论文地址
      https://arxiv.org/abs/2311.10774
      • GitHub项目地址与数据集
      https://github.com/FuxiaoLiu/MMC
      • Hugging Face数据集
      https://huggingface.co/datasets/xywang1/MMC

      11. CC-OCR:面向多模态大模型的全面OCR评测基准



      提出背景:

      当前的大型多模态模型(LMMs)在图文理解方面取得了显著进展,但在复杂结构和细粒度视觉挑战的文字识别任务中仍存在不足。现有的OCR评测基准往往任务单一、场景受限,难以全面衡量模型的阅读理解能力。为此,阿里巴巴集团、华中科技大学和华南理工大学的研究者联合提出了CC-OCR基准,旨在填补这一评测空白。

      作者机构:

      该基准由阿里巴巴集团、华中科技大学和华南理工大学的研究者联合提出,主要作者包括杨志博、唐俊、李兆海、王鹏飞、万建强、钟虎门、刘雪婧、杨明坤、王鹏、白帅、金联文和林俊阳等人。

      任务类型与数据:

      CC-OCR基准涵盖四大OCR核心任务,分别是:

      • 多场景文本阅读评估模型在自然场景、文档和网页等多种场景下的文字识别能力。

      • 多语言文本阅读测试模型对中文、英文、日语、法语等多种语言文本的识别能力。

      • 文档解析包括表格结构识别、公式解析等任务,考察模型对文档结构的理解能力。

      • 关键信息提取从文档中提取特定的关键信息,如发票号码、日期等。

      该基准包含39个子集,共计7,058张全标注图像,其中41%的数据首次公开,来源于真实应用场景,具有较高的挑战性。

      评估指标:

      CC-OCR针对不同任务设计了相应的评估指标。例如,文本识别任务使用准确率,文档解析任务采用结构匹配度,关键信息提取任务则结合准确率和召回率等指标。此外,基准还关注模型在文本定位、多方向文本识别和重复内容幻觉等方面的表现。

      模型适用性与特色:

      在CC-OCR基准上,研究者评估了九个主流多模态模型的表现,包括GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnet、Qwen-VL-Max和InternVL2等。结果显示,Gemini-1.5-Pro在多场景、多语言和文档解析任务中表现最佳,而Qwen-VL-Max在关键信息提取任务中取得领先。然而,整体来看,当前模型在复杂文本识别任务上仍有提升空间,尤其是在文本定位、多方向文本识别和重复内容幻觉等方面。


      引用链接:

        • 论文地址
        https://arxiv.org/abs/2412.02210
        • GitHub项目地址与数据集
        https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Benchmarks/CC-OCR

        12. Video-MME:首个全谱视频多模态模型评测基准

        提出背景:

        当前多模态大模型的研究仍主要集中于静态图像领域,对于视频等动态视觉信息的理解能力尚处于起步阶段。与此同时,缺乏高质量、覆盖广泛的视频评测体系,成为阻碍视频大模型发展的关键障碍。

        为填补这一空白,腾讯优图实验室、厦门大学、中国科学技术大学与 OpenGVLab 等机构联合发布了 Video-MME。该评测是首个覆盖全时长、全领域、全模态的视频多模态大模型评测基准,旨在为视频理解能力提供标准化、系统性的测量框架,推动多模态AI从图像走向视频时代。

        作者机构:

        该基准由 腾讯优图实验室 联合 厦门大学中国科学技术大学 和 OpenGVLab 等共同提出。核心作者包括傅超友、罗勇东、张仁瑞、戴雨函、李雷、冯荣荣、郑夏武、任树怀等人,体现了视频多模态领域产学研深度合作的趋势。

        任务类型与数据:

        Video-MME 覆盖视频理解的核心任务,以问答为统一接口。评测数据集包含 900 段视频,总时长超过 254 小时,共设计 2700 道人工标注问答题,构建了一个高质量、多维度、强挑战的评测环境。

        任务类型分布在六大主领域与三十个子领域,包括:

        • 知识类(如纪录片、科普视频)

        • 影视娱乐(如电影片段、电视剧场景)

        • 体育赛事(如足球、篮球、田径等)

        • 生活记录(如 vlog、家庭录像)

        • 多语言视频(包含非英语内容)

        • 其他领域(如游戏、新闻等)


        视频时长覆盖 短视频(<2分钟)中视频(4–15分钟) 和 长视频(30–60分钟),最短样本仅 11 秒,最长可达 1 小时。部分样本提供 音频与字幕信息,支持模型进行跨模态融合判断。

        所有问答均由人工标注,覆盖视频细节、语义理解、语音内容关联、时序事件识别等维度,确保评测的准确性与挑战性。

        评估指标:

        Video-MME 以 问答准确率 为主要评估指标,要求模型输出与标准答案完全一致或具备语义一致性。

        为兼顾开放式问答的多样性,评测还引入以下评估机制:

        • 多答案匹配:对同义表达进行归一化匹配

        • GPT-4 判分:辅助评估解释类复杂回答的合理性

        • 多模态线索评估:鼓励模型利用字幕、音频与图像信息

        此外,Video-MME 还支持对模型在不同视频长度、场景类别、语言类型等维度下的子集表现进行细粒度统计,便于发现模型的结构性短板。

        模型适用性与特色:

        Video-MME 适用于原生支持视频输入的大模型(如 LLaVA-Next-Video、InternVideo-Chat)以及通过抽帧方式适配视频的静态图像模型(如 GPT-4V)。

        在基准发布论文中,研究者对多个主流多模态模型进行了评测,结果显示:

        • Gemini 1.5 Pro 在整体准确率上领先,达 84.8%

        • GPT-4V 在中等水平,优于大部分开源模型

        • 部分开源模型(如 InternVL-Chat)准确率仅在 50–70% 区间

        评测结果被 Google 用于验证 Gemini 视频能力,OpenAI 也在 GPT-4.1 发布中引用 Video-MME 成绩作为其长视频理解能力的重要证明。

        引用链接:

          • 论文地址
          https://arxiv.org/abs/2405.21075
          • GitHub项目地址与数据集
          https://github.com/BradyFU/Video-MME
          • Hugging Face数据集
          https://huggingface.co/datasets/BradyFU/Video-MME

          13. MME:首个全面的多模态大模型评测基准

          提出背景:

          当前多模态大模型(MLLMs)在图文结合能力上取得了显著进展,但业界对于其综合能力的评估仍缺乏系统性和标准化。以往评测多以个案形式呈现,难以全面刻画模型的感知与认知能力。尤其在新兴能力(如看图写诗、代码理解)方面,缺乏统一的测试标准。为此,腾讯优图实验室联合厦门大学共同推出了 MME(Multimodal Evaluation)评测基准,旨在填补多模态大模型评测体系的空白。

          作者机构:

          该基准由腾讯优图实验室与厦门大学联合提出,主要作者包括傅超友、陈培贤、沈云航等,通讯作者为腾讯优图实验室的李柯博士。项目整合了工业界与学术界的技术力量,由腾讯计算机视觉团队与厦门大学冯仲怡教授团队合作完成。

          任务类型与数据:

          MME 基准共包含 14 个子任务,覆盖基础视觉感知和跨模态认知两大类:

          • 基础感知任务:包括物体存在判断、数量计数、位置关系识别、颜色识别、文字识别(OCR)等。

          • 高级认知任务:涵盖电影海报识别、名人识别、地标识别、艺术品分类、常识推理、数学计算、代码理解、文本翻译等。

          整个评测数据集包含数千张图像及人工设计的指令-答案对,任务指令高度统一,旨在避免模型因提示词差异而产生性能偏差。同时,MME 使用全新构造的数据集,避免与公开训练语料重合,从源头控制数据泄漏风险。

          评估指标:

          MME 基准采用自动化评估体系,核心指标包括:

          • Accuracy:按问题维度计算模型回答正确率。

          • Accuracy+:对同一图像的两道对立问题(如“是否存在猫”和“是否不存在猫”)必须同时答对才计为正确,更能反映模型对图像整体理解的能力。

          每个子任务满分为 200 分,总分为两个准确率指标之和。对于封闭式任务采用精确匹配方式,对于开放式问题则结合列表匹配、人工审核等手段以提升评估准确性与一致性。

          模型适用性与特色:

          MME 适用于评估各类视觉语言模型,包括开源模型(如 BLIP-2、InstructBLIP、MiniGPT-4、VisualGLM)以及商业化模型(如 GPT-4V、Gemini 等)。基准发布时共评估了 30 款主流模型,结果表明:

          • 当前最强模型仅在满分 2800 分中得分约 1800,说明大部分模型仍有显著提升空间。

          • 多数模型在基础任务中表现良好,但在逻辑推理、代码理解、OCR 等复杂任务中准确率明显下降。

          MME 的两大核心优势在于:其一,数据完全新构造,极大降低评测数据泄漏风险;其二,统一简洁的评测指令,确保各模型在相同语义下进行公平比较。作为首个具备广度与深度的通用评测体系,MME 为推动多模态模型向更高水平发展提供了坚实基础。

          引用链接:

          • 论文地址
          https://arxiv.org/abs/2306.13394
          • GitHub项目地址与数据集
          https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

          14. BLINK:多模态大模型“能看不会辨”的感知能力挑战


          提出背景:

          当前多模态大模型在图像描述、开放问答等任务上取得了显著进展,但在基础视觉感知层面仍存在明显短板。许多看似简单、无需推理的视觉判断任务,如相对深度估计、视觉对应、图像取证等,人类可以“眨眼之间”完成,但对现有模型却仍具挑战。BLINK 基准正是在此背景下提出,旨在系统评估模型在基础视觉感知任务中的真实能力。

          作者机构:

          该基准由宾夕法尼亚大学、华盛顿大学、Allen Institute for AI(AI2)等机构联合提出。研究团队由傅星宇(Xingyu Fu)、Dan Roth、Noah A. Smith、Ranjay Krishna 等人组成,涵盖计算机视觉、自然语言处理与多模态领域的知名学者。

          任务类型与数据:

          BLINK 设计了 14 类经典视觉感知任务,共计 3,807 道多选问题,任务包括:

          • 相对深度判断

          • 视觉对应(跨图识别同一目标)

          • 图像取证(辨别篡改与伪造)

          • 多视角推理

          • 拼图解谜与图像排序

          • 功能对应(根据功能匹配物体)

          • 语义/反射率/相似性判断等

          每道题目以选择题形式呈现,包含提示图像及多项选项,考察模型对图像低层信息与常识概念的基础掌握。数据构建过程中,研究者将经典视觉研究任务转换为多选题形式,并经人工审核确保质量。

          评估指标:

          BLINK 主要采用准确率作为评价指标。每题有唯一正确答案,模型需从备选项中做出选择。为量化模型表现,评测中还纳入人类受试者作为参考,结果显示人类平均准确率高达 95.7%,而 GPT-4V 仅为 51.3%,接近随机猜测水平。

          评估中还分析了不同任务维度下的表现差异,发现多数大模型在深度感知、视觉取证等方面几乎无法给出可靠答案,而传统 CV 模型在部分任务上反而优于 MLLM。

          模型适用性与特色:

          BLINK 专为评估多模态大模型的基础视觉感知能力而设计,适用于 GPT-4V、Gemini、Claude 3 等主流视觉语言模型。其最大特色在于:

          • 聚焦“人类秒懂但模型难解”的基础感知任务

          • 全部任务采用结构化选择题形式,便于自动评测

          • 提供清晰的人类性能上限,有助于对比模型短板

          实验结果显示,即使是当前最强的 GPT-4V 等模型,在 BLINK 上的得分仍远低于人类基线,暴露出多模态模型在视觉基础能力上的系统性缺陷。

          引用链接:

          • 论文地址
          https://arxiv.org/abs/2404.12390
          • GitHub项目地址与数据集
          https://github.com/zeyofu/blink

          15. ChEF:模块化的多模态模型标准化评测框架

          提出背景:

          尽管当前多模态大模型评测基准层出不穷,如 MME、MMBench 等,但它们往往任务各异、指标不一,评测体系碎片化严重,导致模型间难以横向比较。为解决这一问题,ChEF 基准框架应运而生,目标是提供一个可扩展、标准化的通用评测体系,系统刻画模型的多维能力图谱,推动评测方法从“拼图式”走向“积木式”。

          作者机构:

          ChEF 由上海人工智能实验室、北京航空航天大学、悉尼大学等机构联合提出,主要作者包括石哲伦、王质频、范弘星等,通讯作者为北航吕胜教授和上海 AI 实验室邵晶博士。团队由 OpenGVLab 和多所高校联合组成,具备较强的产业-学术融合背景。

          任务类型与数据:

          ChEF 并非一个固定数据集,而是一个由四大核心模块(场景 Scenario、指令 Instruction、推理器 Inferencer、指标 Metric)构成的灵活评测框架。通过不同模块组合(即“评测配方”Recipe),可生成不同任务的评测方案。

          在论文中,作者构建了六大能力评测配方,分别用于评估以下方面:

          • 信心校准(Confidence Calibration)

          • 上下文学习(In-Context Learning)

          • 指令遵循(Instruction Following)

          • 语言生成(Language Generation)

          • 幻觉控制(Hallucination Detection)

          • 鲁棒性评估(Robustness)

          此外,ChEF 框架内置了 9 个典型场景任务作为能力测试基础,包括图像分类(CIFAR-10)、目标检测(VOC2012)、图文检索(Flickr30k)、科学图文问答(ScienceQA)、常用多模态基准(如 MMBench、MME)等。

          评估指标:

          ChEF 为每项能力配套专属指标,确保评估全面、量化准确:

          • 校准能力:使用期望校准误差(ECE)评估置信度准确性

          • 上下文学习:用 RIAM 指标衡量 few-shot 带来的性能提升

          • 指令遵循:以 Match Ratio 计算模型对不同表述的一致性

          • 语言生成:引入 GPT-4 自动评分评估自然语言输出质量

          • 幻觉控制:统计模型在无目标图像中错误答“有”的比例

          • 鲁棒性:用扰动前后准确率差值(RRM)评估模型抗干扰能力

          所有评估结果均可绘制成模型能力雷达图,直观呈现模型多维能力画像。

          模型适用性与特色:

          ChEF 支持主流多模态模型(如 GPT-4V、Gemini、Claude、BLIP 系列等),尤其适合研究模型在多任务、多场景下的稳定性与泛化能力。

          其核心特色在于:

          • 模块化架构,灵活组合任意评测任务

          • 统一指标体系,支持跨模型对比

          • 支持开发者扩展新场景、新指令、新评分标准

          ChEF 的发布填补了多模态评测框架标准化的空白,成为研究者构建新型 benchmark 和分析模型能力结构的重要工具。

          引用链接:

          • 论文地址
          https://arxiv.org/abs/2311.02692
          • GitHub项目地址与数据集
          https://github.com/EQTPartners/GenCeption

          16. GenCeption:无需标注数据的跨模态一致性评测新方法

          提出背景:

          传统多模态模型评测依赖大量人工标注数据,不仅成本高昂,而且存在训练数据泄漏、评测维度受限等问题。为解决这些挑战,研究者提出 GenCeption,一种基于“你画我猜”机制的生成式评测框架。它通过多轮图文生成循环,衡量模型的跨模态语义一致性和幻觉倾向,不依赖任务标注,可快速拓展并适配多种模态。

          作者机构:

          该评测方法由 EQT Partners(瑞典)旗下 Motherbrain AI 实验室牵头,联合瑞典皇家理工学院(KTH)、法国电信巴黎研究院等机构共同提出。核心作者包括曹乐乐、Valentin Buchner、杨方凯等研究人员,团队具有浓厚的工业实用导向和算法创新能力。

          任务类型与数据:

          GenCeption 不设固定任务集,而是基于模型与生成模型之间的交互流程进行评测。主要过程如下:

          • 以一张未标注图像为起点,待评估模型生成文字描述

          • 将该描述输入文本转图像模型(如 DALL·E、Stable Diffusion)生成新图像

          • 再由模型对新图像进行描述,如此往复 N 轮

          这个过程类似“你画我猜”,每一轮都可能引入微小偏差,最终语义是否保真成为模型评估关键。

          GenCeption 不依赖人工构建 QA 对,也不依赖人工评分,适用于任意未标注图像或视频,支持大规模低成本部署。

          评估指标:

          核心评估指标为 GC@T(Generative Consistency at T),用于衡量第 T 轮生成结果与初始输入的语义一致性。常用方法包括:

          • 使用 CLIP 模型计算原始图像与第 T 轮生成图像的嵌入相似度

          • 或比较中间文本描述的一致性

          GC@T 越高,表明模型语义传递越稳定;若 GC@T 急剧下降,则可能出现幻觉或语义漂移。此方法天然具备衡量跨模态幻觉(hallucination)的能力。

          模型适用性与特色:

          GenCeption 可适配所有具备图文生成能力的多模态模型,尤其适合评估模型的:

          • 跨模态语义一致性

          • 语言生成保真度

          • 幻觉控制能力

          其主要优势在于:

          • 完全脱离人工标注

          • 易于扩展至任意模态组合(如音频-图像、视频-文本)

          • 自动化评测,具备高鲁棒性和通用性

          作者已在多个主流模型上测试 GenCeption(包括 LLaVA、BLIP-2 等),结果与人工评测排名高度相关,验证了该方法的有效性和可替代性。

          引用链接:

          • 论文地址
          https://arxiv.org/abs/2402.14973
          • GitHub项目地址与数据集
          https://github.com/llcresearch/GenCeption

          17. DesignQA:面向工程设计文档的多模态问答基准

          Dataset Overview

          提出背景:

          多模态大模型在通用图文问答任务中已展现强大能力,但面对专业场景,尤其是工程设计领域的图纸与文本结合任务时,现有评测基准严重不足。DesignQA 正是在此背景下提出,旨在评估模型对工程规则文档与 CAD 图纸等复杂技术内容的理解与推理能力。

          作者机构:

          DesignQA 由麻省理工学院(MIT)与欧特克研究院(Autodesk Research)联合推出。核心作者包括 MIT 的 Anna C. Doris、Md Ferdous Alam 与 Faez Ahmed 教授,以及 Autodesk 的 Daniele Grandi、Hyunmin Cheong 等研究者。该团队跨越工业界和学术界,致力于将 AI 应用于实际工程设计流程。

          任务类型与数据:

          DesignQA 基于 Formula SAE 赛车赛事真实规则文档与 MIT 赛车队设计图纸构建,涵盖三个关键子任务:

          • 规则提取任务:要求模型从近百页技术规则文档中定位特定条款或列举所有相关规则编号

          • 规则理解任务:结合图纸与规则,回答关于零部件名称、定义、是否存在等问题

          • 规则符合性判断任务:依据图中标注尺寸或仿真图,结合规则文本判断某设计是否合规,并给出理由

          整个数据集涉及多视图 CAD 截图、文档 PDF 原文、结构应力图等,问题均为由工程背景人员人工设计并标注答案,最大限度模拟真实工程场景。

          评估指标:

          DesignQA 依据任务类型采用多元评估方式:

          • 文档提取任务以精确匹配规则编号或条文内容为标准

          • 图文识别类任务采用是否正确识别零件、位置、功能为指标

          • 合规判断任务则结合 GPT-4 等大模型辅助评分,对解释合理性与结论正确性进行评估

          多种问题类型均支持自动化评测,同时提供可扩展的人工复核辅助,以确保在开放式任务中评估准确。

          模型适用性与特色:

          DesignQA 面向能够处理长文档 + 专业图纸的多模态大模型,尤其适合用于评估:

          • 长文档信息检索与解析能力

          • 对工程语境下的图纸理解与跨模态推理能力

          • 面向具体规则的合规性判断能力

          当前即便是 GPT-4 等顶级模型,在 DesignQA 的长文档提取与图纸识别任务上表现仍不稳定,说明其具有较强区分度与挑战性。DesignQA 是首个面向专业工程设计场景构建的多模态评测,推动了 AI 在工业设计、制造辅助等领域的落地探索。

          引用链接:

          • 论文地址
          https://decode.mit.edu/assets/papers/2024_doris_designqa.pdf
          • GitHub项目地址与数据集
          https://github.com/anniedoris/design_qa/
          https://design-qa.github.io/#

          18. MMT-Bench:迈向多任务通用智能的海量多模态基准


          提出背景:

          随着多模态大模型(MLLM)能力不断扩展,如何系统性评估其在真实世界中多任务、多场景下的表现成为亟待解决的问题。以往评测基准大多任务数量有限,覆盖面窄,无法全面刻画模型的通用性。为此,中科院上海人工智能实验室等提出了 MMT-Bench,一个覆盖 32 类任务、162 个子任务、超 3 万道题目的大规模多模态通用基准。

          作者机构:

          该基准由中科院上海人工智能实验室(Shanghai AI Lab)牵头,联合上海交通大学、香港大学、浙大、腾讯优图等多家单位共同开发。作者团队包括应凯宁、张仁瑞、邵文奇、王玉清、乔宇、王亚丽等,代表了中国在通用多模态智能评测方面的研究前沿。

          任务类型与数据:

          MMT-Bench 汇集了来自多个真实数据源的多模态任务,涵盖图像、文本、视频、医学影像、遥感、自动驾驶等多种模态与场景。任务类型包括但不限于:

          • 场景识别与目标检测

          • 多模态问答与推理

          • 医疗影像分析

          • 自动驾驶感知决策

          • 机器人导航与路径规划

          • 视频理解与交互判断

          • 视觉常识推理与知识问答

          共计 31,325 道多选题,统一转换为选择题格式,便于客观评分和模型对比。所有问题均经人工设计或审核,确保题目质量与多样性,最大程度降低数据泄漏。

          评估指标:

          MMT-Bench 采用选择题准确率作为核心评估指标。每道题提供 4 个以上选项,模型需选出唯一正确答案。系统将统计:

          • 总体平均准确率

          • 各任务类别下的子任务准确率

          • 每个模型在不同领域下的能力分布

          同时支持构建“任务表现矩阵”,帮助研究者分析模型在特定领域的强弱项,评估其任务广谱性与迁移能力。部分复杂任务还支持 GPT-4 辅助判分与结果解释。

          模型适用性与特色:

          MMT-Bench 是目前最广覆盖的多模态通用基准,适用于:

          • 通用视觉语言模型(VLMs)

          • 多模态对话模型

          • 多任务统一模型(Uni-MLLMs)

          • 具身智能代理模型

          它的核心特色包括:

          • 全面任务覆盖:32 个核心任务,构成完整的通用智能测试地图

          • 高质量数据:全部题目人工校验,内容涵盖科研、医疗、生活、娱乐等真实场景

          • 统一测评格式:所有任务转为多选问答形式,支持自动评分

          • 模型表现画像:可输出任务-模型矩阵,帮助洞察模型“能力雷达”

          据作者报告,GPT-4V 在此基准上表现仍未达到人类平均水平,展现出该基准较强的挑战性与区分力。

          引用链接:

          • 论文地址
          https://arxiv.org/abs/2404.16006
          • GitHub项目地址与数据集
          https://github.com/OpenGVLab/MMT-Bench

          19. Omni AI OCR Benchmark:面向复杂多语言场景的全方位文字识别评测基准

          提出背景:

          尽管多模态大模型(MLLMs)在视觉文本识别方面取得显著进展,但在多语言、复杂排版以及细粒度信息提取等真实应用场景中仍面临诸多挑战。现有 OCR 评测多聚焦于单一语言和规则版面,缺乏对跨语言、多场景能力的系统性衡量。为填补这一空白,Omni AI 团队提出了 Omni AI OCR Benchmark,旨在构建一个覆盖全球语言、多样文档形式与复杂结构的高标准 OCR 评测体系。

          作者机构:

          该基准由 Omni AI 研究实验室主导开发,团队成员来自计算机视觉、自然语言处理、多模态交互等多个研究方向,长期专注于 OCR 技术在全球化、多语言环境下的性能优化与应用落地。

          任务类型与数据:

          Omni AI OCR Benchmark 设计了四大核心任务,涵盖多语言、复杂结构与关键语义提取场景:

          • 多语言文本识别:支持 20 余种语言,包括中、英、日、韩、阿拉伯语、印地语、西班牙语等,涵盖印刷体与手写体。

          • 复杂排版解析:针对多列布局、斜体曲面文本、图文混排等结构进行精准识别。

          • 细粒度关键信息提取:从票据、证件、商品标签、地图等高密度视觉文本中提取特定字段。

          • 多语言混排识别:评估模型在单图中同时识别并区分多语言文本的能力。


          数据集包含超过 15,000 张真实图片,标注逾 200,000 个文本框,覆盖街景招牌、扫描文档、网页截图、包装设计等多元场景,具备极高语言多样性与场景复杂性。

          评估指标:

          针对不同任务类型,基准构建了精细化评估指标体系:

          • 文本识别准确率(Word Accuracy):按语言分别计算文字识别精度。

          • 排版结构精度(Layout Precision):评估文本区域定位与层次结构还原能力。

          • 关键信息提取准确率(KIE Accuracy):衡量模型对指定字段的提取能力。

          • 混排识别准确率(Multilingual Mixed Accuracy):测量模型同时识别多语言文本时的精度表现。


          模型适用性与特色:

          Omni AI OCR Benchmark 面向对复杂文本理解具有挑战性的多模态大模型评估。在基准测试中,主流模型如 GPT-4V、Gemini-1.5、Claude-3 等在标准单语言印刷文本下表现出色,但在面对多语言混排、复杂排版或细粒度提取任务时准确率下降显著,普遍低于单一任务 30%–50%。该基准不仅揭示了当前模型在实际应用中的能力边界,也为多语言 OCR 系统的迭代优化提供了系统性的参考依据。

          参考资料:

          • GitHub项目地址与数据集
          https://github.com/getomni-ai/benchmark
          • Hugging Face数据集
          https://huggingface.co/datasets/getomni-ai/ocr-benchmark


          总结与展望

          这些评测带来的启示是明显的:即使是如GPT-4V这样的顶尖模型,在许多专项任务上依然无法企及人类水平。模型在陌生领域(如股票图、科学图表)会暴露短板,在需要精准识别的场景(如OCR细节、表格结构)也常有疏漏。这说明当前的多模态大模型仍有巨大的提升空间。通过上述基准的系统性测评,我们能够定位模型能力边界——哪些类型的信息模型掌握得好,哪些仍是“盲区”。

          值得注意的是,不少评测基准本身也在不断进化。例如SEED-Bench从1到2再到2-Plus持续扩展,OCRBench也推出v2升级版。这体现出随着模型能力提高,评测也需相应升级,才能继续起到区分和指导作用。同时,不少研究团队在构建基准的过程中也提出了针对性的模型改进思路(如ChartVLM、MMCA等),反过来验证了评测价值。可以预见,未来的评测体系将朝着更大规模、更高复杂度、更贴近实用场景的方向发展。例如,多模态对话、多步骤推理、跨模态推断等,都可能成为下一个评测热点。

          对于业界和学界而言,完善的评测体系如同灯塔,指引着多模态大模型研究的前进方向。通过阅读和对比这些基准,研究者可以对不同模型的强弱有系统认识,从而针对薄弱环节进行改进;应用开发者也能据此选择最适合特定场景的模型方案。总的来说,当前这一系列多模态评测基准的涌现,标志着该领域正在走向成熟与规范。展望未来,随着评测标准的深化和统一,多模态大模型将迎来更加扎实、稳健的发展,其在各行业的落地应用也将因此受益。模型能力的极限究竟在哪里,还有哪些“最后一公里”的问题未解?这些评测体系将持续为我们提供答案,推动多模态AI迈向新的高度。


          53AI,企业落地大模型首选服务商

          产品:场景落地咨询+大模型应用平台+行业解决方案

          承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

          联系我们

          售前咨询
          186 6662 7370
          预约演示
          185 8882 0121

          微信扫码

          添加专属顾问

          回到顶部

          加载中...

          扫码咨询