微信扫码
添加专属顾问
我要投稿
IBM最新力作,文档AI领域的重大突破。 核心内容: 1. SmolDocling模型:基于Hugging Face的SmolVLM-256M构建,参数数量大幅减少 2. 处理多种文档类型:包括商业文件、学术论文等,准确复现文档元素 3. 新型DocTags格式:结构化词汇表和规则,清晰区分文本内容和文档结构
SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。
假设有一个包含文本、表格和图表的文档页面图像,SmolDocling 将该图像转换为 DocTags 序列。
例如,文本内容将被封装在 <text> 标记中,表格结构将使用 OTSL 标记(如 <fcel>、<ecel> 等)表示,图表将被封装在 <picture> 标记中,并可能包含 <caption> 标记以表示图表标题。
DocTags 受 OTSL 启发,定义了一个结构化的词汇表和规则,明确区分文本内容和文档结构,减少了图像到序列模型的混淆。
<loc_x1><loc_y1><loc_x2><loc_y2>。53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-15
治理之智 | 从零和博弈走向长期合作:人工智能版权问题分析与思考
2025-12-15
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
2025-12-15
200k Tokens 的上下文真的够用吗?
2025-12-15
专家知识 x 技术放大:我在B端智能体落地一线的万字真实复盘
2025-12-15
字节AI神操作:AI生成接口自动化测试用例,效率拉满
2025-12-15
解析 Goose:为什么它会进入 AAIF,以及这对 Agentic Runtime 意味着什么
2025-12-15
Palantir的“本体论”:数字世界的底层革命
2025-12-15
Claude Skills|将 Agent 变为领域专家
2025-09-19
2025-10-26
2025-10-02
2025-09-17
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13