免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DocReward:让智能体“写得更专业”的文档奖励模型

发布日期:2025-10-29 20:39:24 浏览次数: 1526
作者:微软亚洲研究院

微信搜一搜,关注“微软亚洲研究院”

推荐语

微软亚洲研究院最新推出的DocReward模型,让AI生成的文档不仅内容准确,还能在排版和结构上达到专业水准。

核心内容:
1. DocReward模型如何评估文档的专业性
2. 智能体生成文档在结构与样式上的优化
3. 推动办公软件智能体化转型的关键技术

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
 

(本文阅读时间:13分钟)


编者按:当大模型已能“写对”内容,如何让文档也“好看、易读”成为办公智能体转型的新焦点。微软亚洲研究院携手香港中文大学、中国科学院大学提出了一个专注于评估文档“结构与样式”专业性的奖励模型 DocReward。该模型为智能体生成的文档提供了清晰、可量化的优化信号,使其不仅在内容层面准确可信,更在形式呈现上清晰有序、专业规范,为下一代智能办公智能体的落地奠定了关键基础。

近年来,随着智能体化转型(Agentic Transformation)的快速发展,AI 自动化能力持续突破,已经覆盖文档生成、代码生成、图像生成、视觉理解、数学推理等多种复杂任务。这一趋势凸显了传统软件智能体化转型的重要性,以 Microsoft Office 为代表的核心生产力平台,若升级为具备自主推理与操作能力的下一代智能体,则将实现自然语言与办公自动化的无缝衔接,显著提升工作效率和专业水平。


为推动这一转型,微软亚洲研究院联合香港中文大学、中国科学院大学提出了专注于文档结构与样式专业度的奖励模型 DocReward。DocReward 可以评估文档的视觉层次、排版规范和整体可读性,为自动化文档创作提供核心支撑。通过优化结构与样式,DocReward 能够帮助由智能体生成的文档在形式上达到专业标准,确保内容呈现清晰、有序、易读。


在内容生成方面,Deep Research 通过智能体化的文献调研,可高效整合信息并输出专业报告。结合 DocReward,智能体不仅能够产出内容可靠、信息丰富的文档,还能保证文档结构清晰、风格专业,实现从信息调研到高质量文档呈现的完整闭环,为传统办公软件智能体化转型奠定坚实基础。


图1:DocReward 能够根据文档的结构和样式自动评估其专业性,从而辅助现有的智能体工作流,生成更加专业的文档。


DocReward: A Document Reward Model for Structuring and Stylizing


论文链接:

https://arxiv.org/abs/2510.11391


专业文档智能体化生成面临的挑战


如今,智能体化的专业文档生成已经成为一个备受关注的方向。然而,目前的研究大多集中在“文本内容质量”的提升上,对“结构与样式”这些视觉元素的重要性关注不足。事实上,一份真正专业的文档不仅要内容扎实,更要结构清晰、样式恰当。清晰的结构能让读者顺畅地理解信息,而恰当的样式则有助于提升整体的阅读体验与专业感。


这种忽视的根源在于:现有的奖励模型尚无法有效指导智能体生成在视觉上更专业、结构与样式更合理的文档。但未来的研究将致力于让 AI 不仅能写出“对”的内容,更能写出“易读、美观”的作品。


对此,研究团队提出了奖励模型 DocReward,专门用于评估文档结构和样式的专业性,从而辅助现有的智能体工作流,生成更加专业的文档。


任务建模——文档结构和样式评估


假设有一组文档 {D_i},每份文档的文本内容和对应的渲染图像分别用 D_(text,i) 和 D_(img,i) 表示。文档奖励模型会对这些文档进行评分,使得评分能够反映文档在结构和样式上的专业程度。


具体来说,对于内容相同的一组文档,研究员们希望奖励模型(用 R_θ 表示)预测的评分顺序能够尽可能与文档在结构和样式上的真实优劣顺序(用 π* 表示)保持一致。通过这种方法,奖励模型能够区分同一文本内容下文档的优劣,从而提升结构和样式评估的准确性。


形式化表示如下:



文档结构与样式专业性的定义如下:


  • 结构(Structure):文档应合理使用空白区域,保持适当的页边距;章节分隔清晰,文本对齐良好,段落间距和缩进适当,页眉页脚使用规范;整体内容逻辑清晰、条理分明。


  • 样式(Style):文档应选择合理的字体,包括字体类型、大小、颜色和可读性;标题样式清晰,有效使用加粗、斜体等强调手段;项目符号和编号使用得当,整体格式统一。


DocReward:聚焦结构和样式的文档奖励模型


为了训练 DocReward,研究团队构造了 DocPair 数据集。该数据集包含11.7万对文档,涵盖32个领域和267种文档类型。模型通过偏好学习优化,能够准确评估文档在结构和样式的专业度。


如图2所示,DocPair 的数据构造流程分为三个步骤。


图2:DocPair 的数据构造流程


1. 高质量文档的收集


首先,研究团队收集了一批人类撰写的 Microsoft Word 文件,涵盖正式的机构文档和日常办公文档。数据来源包括:


  • 政府与机构文档:GovDocs1 和 NapierOne 数据集。GovDocs1 包含大量美国政府网站的政策报告、行政表格、统计报告、会议记录等文档,NapierOne 则包含丰富的公共机构办公文档,这些文档在结构和样式上具有高度的专业性。


  • 网络文档:从 CommonCrawl 数据库中收集了真实世界的各种专业文档,包括商业、教育、非营利、医疗等领域的提案、课程大纲、新闻通讯、技术手册和政策简报等,这大大增加了数据的结构和样式多样性。


为了确保数据适用于奖励模型的训练,研究员们对文档进行了预处理和筛选:将所有文档统一转换为 DOCX 格式,剔除异常或格式错误的文档,并使用 GPT-5 对文档结构和样式进行自动评分(分数范围0-10),保留评分高于8的文档。


最终,处理过的数据覆盖32个领域(如政府、教育、非营利机构、医疗、科学、法律、商业、学术与技术等)和267种文档类型(如职位说明、政府表格、政策文件、会议纪要、新闻稿、课程大纲等),形成了后续构建文档对的基础。


图3与图4分别展示了 Top 10 的领域分布与 Top 30 的文档类型分布,体现出了 DocPair 数据集的广度与多样性。


图3:Top 10 的文档领域分布


图4:Top 30 的文档类型分布


2. 通过智能体扩展文档数据


为了获得文本内容相同但结构和样式不同的文档,研究团队设计了两类文档生成智能体:


  • 文本到文档生成 agent:提取源文档的文本内容,去掉所有结构和样式信息,然后使用高级生成模型(如 GPT-4o、Claude Sonnet 4、GPT-5 等),以生成 python-docx 代码的方式产生 DOCX 文档。


  • 结构与样式优化 agent:为了进一步优化合成文档的结构和样式,让智能体参考原始人类文档,研究员们采用两阶段优化——第一阶段生成优化计划,第二阶段修改 DOCX 文件的 python-docx 代码,实现结构和样式的提升。


3. 文档排序与注释


在每个文档组中,文档都具有相同的文本内容。为此,研究团队构造了以下两种比较对:


  • 人类文档 vs 合成文档:若文档对中有真实的人类文档,则直接将人类文档标为更专业。


  • 合成文档 vs 合成文档:若文档对中两份文档均为合成文档,则以真实人类文档作为参考,使用 GPT-5 标注更专业的合成文档。


最终构建出的 DocPair 数据集包含11.7万对文档,为训练 DocReward 提供了坚实基础。


对于文档的多页视觉渲染图像输入 vision encoder,研究员们在语言模型上添加了一个回归头,在输入图像序列末尾添加了一个特殊的 <regression> token,该 token 对应的语言模型隐藏状态,经过回归头来预测文档的评分。



训练采用 Bradley-Terry 损失(BT)用于从成对的偏好中进行学习。具体来说,DocReward 会分别输入每份文档的渲染页并输出评分,损失函数的目标是让模型对获胜文档的评分高于失败文档的评分,鼓励模型正确区分成对文档的结构和样式优劣。


实验与评测


研究团队进行了一系列的实验,以测试 DocReward 在评估文档结构与样式专业性方面的有效性。


实验一:偏好准确率评测


研究员们从前述整理的高质量文档中随机采样部分样本,构建了评估数据集。该评测集同时包含人类撰写的真实文档和由多种大语言模型生成的合成文档,以保证结构和样式的多样性。


对于每组内容相同但结构和样式不同的文档,人工专家根据其结构与样式的专业程度进行了排序。随后,研究团队将这些排序结果转换为473对文档对比样本,并在每对样本中标注出哪一份更优。


如表1所示,在上述评估数据集上,DocReward 模型取得了显著提升,超越了 GPT-4o、Claude Sonnet 4 和 GPT-5 等强基线。


表1:不同奖励模型的偏好准确率对比


其中,DocReward-7B 在整体人工偏好准确率上达到了89.22%,比表现最好的闭源基线 GPT-5(69.77%) 高出19.45个百分点。即便在更具挑战性的“合成文档 vs 合成文档”场景下,DocReward-7B 依然保持了78.22%的准确率,高于 GPT-5 的64.85%。


这些结果说明,DocReward 能够有效捕捉文档结构与样式的质量信号,而这些往往是现有大语言模型所忽视的。


实验二:基于 DocReward 的文档生成改进


为了验证 DocReward 在实际文档生成任务中的价值,研究员们进一步开展了基于奖励模型的文档生成实验。在该实验中,文档生成智能体根据相同的文本内容生成了多份候选文档,随后由不同的奖励模型从中挑选出结构与样式最优的一份作为最终输出。


研究员们首先对比了三种奖励策略:随机选择、GPT-5 奖励模型以及 DocReward 奖励模型。接着,人工标注者根据文档的结构与样式对三种奖励策略生成的结果进行评估,并统计不同奖励模型之间的胜/负/平局比例。


实验结果如图5所示,随机奖励表现最差,仅在24.6%的对比中获胜;而 GPT-5 的胜率提升至37.7%;相比之下,DocReward 的胜率达60.8%,失败率仅为16.9%,显著优于两种基线方法。


这一结果表明,DocReward 所提供的奖励信号能更准确地反映人类在文档结构与样式上的偏好。将 DocReward 集成到文档生成流程中,即使不改变原有生成模型本身,也能显著提升最终输出文档的专业性,与人类偏好保持一致。


图5:不同奖励模型用于文档生成时的对比


为了更直观地展示 DocReward 对文档结构与样式专业性的感知能力,研究员们进一步进行了样例分析。本实验选取了一组内容相同但在结构和样式上存在差异的文档,如图6所示。


图6:DocReward 能够捕捉文档在结构和样式方面的专业性差异


样例 (a):文档的空白区域分配不合理:姓氏栏(Last Name)间距过小,而名字栏(First Name)间距过大,导致整体版面不平衡。部分关键信息项(如 Faculty/Department、Country、Country Code)未对齐,呈现出杂乱无章的排版效果。DocReward 对该文档的评分仅为1.21,反映其在结构与样式方面的较差表现。


样例 (b):采用了类似表格的布局,整体比 (a) 更规整,但一级标题 “The teaching staff member” 字体过小,与正文缺乏明显区分,削弱了视觉层级感。同时,输入栏缺少边框,使信息定位不够直观,最终获得2.11的中等评分。


样例 (c):展现了清晰、规范的文档结构——标题字号明显大于正文,留白合理,排版对齐规范,可读性强。该文档获得了最高分5.34。


从这些对比样例可以看出,DocReward 能够有效捕捉文档在结构与样式层面的专业性差异,其评分结果与人类的视觉判断一致。这进一步验证了 DocReward 在结构化、专业化文档评估中的可靠性与实际应用价值。


通过文档生成智能体的实验结果与样例分析可以发现,DocReward 能有效引导智能体生成更符合人类偏好的专业化文档,实现从信息调研到高质量文档展示的完整闭环。这一成果验证了 DocReward 在文档生成中的实际效用,也为 Microsoft Office 等核心办公软件的智能体化转型提供了有力支持。




微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询