微信扫码
添加专属顾问
我要投稿
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到,单栏无公式无表格时候,识别结果完全正确,而且原图中的文本格式也都正确输出了,包括标题、文本加粗、列表项目编号。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
这里有两个问题:
表格的识别结果中对于需要合并单元格的情况没有做合并,可能还是因为使用markdown表示的表格太简单了,处理不了合并单元格的情况。
公式的识别文本没能正确渲染出来,识别文本如下:
\[\textit{NED}=1-\frac{1}{N}\sum_{i=1}^{N}D\left(s_{i},\hat{不知道为何是用\[和\]表示的公式,如果将\[和\]替换为$,仍然会提示\len不对,再将\len改为\text{len}后,可以得到正确渲染的公式识别结果。所以这里也能看出Kosmos-2.5的公式识别能力存在问题,如果文档里有公式出现时,不建议使用。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到对于双栏,可以做到按阅读顺序输出,而且还能正确将原文里的文本格式(如斜体、黑体、标题、列表等)直接转换成markdown里的表示,从而正确渲染出来。
输入图片:
将识别结果转为markdown后的渲染成图片保存如下:
可以看到表格识别结构全乱了,因为将markdown转为图片后产生了截断,导致图片中的表格没有显示全,这也说明对于复杂的表格kosmos-2.5效果不佳。这个图片里表格里文字出现了竖排,对于当前的这些VLM模型来说确实比较难。
所以基本可以得出结论:
无表格无公式的单栏双栏文档都是没有问题的,可以端到端输出为markdown结果,尤其是它的输出保留了阅读顺序以及字体样式的能力令人称赞;
有公式的文档就不用考虑了;
有表格的文档需要衡量是否会有复杂的表格,如果表格都是N行M列也没有问题。
Kosmos-2.5最大支持4096个token,从上面的测试可以看到覆盖了常见文档单页字符数量,即使是双栏全文本图片,也能全部输出;
遗憾的是仅支持英文,不支持中文,而且训练该模型的数据也没有开源。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-27
Tair 短期记忆架构实践:淘宝闪购 AI Agent 的秒级响应记忆系统
2026-03-27
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
2026-03-26
GitHub 悄悄改了规则,你的代码可能正在被拿去训练 AI
2026-03-26
Harness is the New Dataset:模型智能提升的下一个关键方向
2026-03-26
Google 亲手证明:GUI 已死,但尸体还在动
2026-03-26
Claude Code 太烧钱了?我用这 5 招,把 token 成本砍了一半!
2026-03-26
治愈 Cursor AI 编程的 “幻觉”?用它就够了!
2026-03-26
Anthropic官方复盘Claude Code:智能体系统设计的四个核心
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2025-12-30
2026-01-21
2026-03-22
2026-03-22
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18