微信扫码
添加专属顾问
我要投稿
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到,单栏无公式无表格时候,识别结果完全正确,而且原图中的文本格式也都正确输出了,包括标题、文本加粗、列表项目编号。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
这里有两个问题:
表格的识别结果中对于需要合并单元格的情况没有做合并,可能还是因为使用markdown表示的表格太简单了,处理不了合并单元格的情况。
公式的识别文本没能正确渲染出来,识别文本如下:
\[\textit{NED}=1-\frac{1}{N}\sum_{i=1}^{N}D\left(s_{i},\hat{不知道为何是用\[和\]表示的公式,如果将\[和\]替换为$,仍然会提示\len不对,再将\len改为\text{len}后,可以得到正确渲染的公式识别结果。所以这里也能看出Kosmos-2.5的公式识别能力存在问题,如果文档里有公式出现时,不建议使用。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到对于双栏,可以做到按阅读顺序输出,而且还能正确将原文里的文本格式(如斜体、黑体、标题、列表等)直接转换成markdown里的表示,从而正确渲染出来。
输入图片:
将识别结果转为markdown后的渲染成图片保存如下:
可以看到表格识别结构全乱了,因为将markdown转为图片后产生了截断,导致图片中的表格没有显示全,这也说明对于复杂的表格kosmos-2.5效果不佳。这个图片里表格里文字出现了竖排,对于当前的这些VLM模型来说确实比较难。
所以基本可以得出结论:
无表格无公式的单栏双栏文档都是没有问题的,可以端到端输出为markdown结果,尤其是它的输出保留了阅读顺序以及字体样式的能力令人称赞;
有公式的文档就不用考虑了;
有表格的文档需要衡量是否会有复杂的表格,如果表格都是N行M列也没有问题。
Kosmos-2.5最大支持4096个token,从上面的测试可以看到覆盖了常见文档单页字符数量,即使是双栏全文本图片,也能全部输出;
遗憾的是仅支持英文,不支持中文,而且训练该模型的数据也没有开源。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
Cursor 2.0的一些有趣的新特性
2025-10-30
Anthropic 发布最新研究:LLM 展现初步自省迹象
2025-10-30
让Agent系统更聪明之前,先让它能被信任
2025-10-30
Rag不行?谷歌DeepMind同款,文档阅读新助手:ReadAgent
2025-10-29
4大阶段,10个步骤,助你高效构建企业级智能体(Agent)
2025-10-29
DocReward:让智能体“写得更专业”的文档奖励模型
2025-10-29
沃尔沃RAG实战:企业级知识库,早就该放弃小分块策略
2025-10-29
大模型的Funcation Calling是什么?
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-08-20
2025-10-29
2025-10-29
2025-10-28
2025-10-28
2025-10-27
2025-10-26
2025-10-25
2025-10-23