微信扫码
添加专属顾问
我要投稿
大模型如何帮你一键生成专业PPT?AutoPresent和SlideCoder两大方案解析。 核心内容: 1. 使用python-pptx库实现PPT自动化的基础方法 2. AutoPresent方案:基于LLAMA模型的代码生成与SLIDESBENCH基准测试 3. SlideCoder方案:布局感知的层次化检索增强生成框架
今天是2025年6月12日,星期四,北京,晴
我们来看文档智能进展,上次是paper2poster,这次是用来做ppt。
从工程上来说,可以使用python-pptx库来创建幻灯片。通过这种方法,可以控制幻灯片的每一个细节,包括文本内容、图像、视觉布局、颜色等。
但可以进一步自动化,例如很直观的做法,就是直接做大模型微调,核心在于搞一批SFT数据集,但是,简单微调,并不能捕捉细节信息,这也说明PPT生成并非易事,还需要做很多事情,难点还是有很多。
例如,如何准确理解设计图像并生成可编辑的幻灯片代码;如何处理复杂幻灯片中的多样元素类型和高元素密度;如何提高LLMs对python-pptx库的理解以生成语法正确且可执行的代码。
想做好并不容易,所以,可以看看两个方案,有一些思路。
先看一个工作AutoPresent《AUTOPRESENT: Designing Structured Visuals from Scratch》(https://github.com/para-lost/AutoPresent,https://arxiv.org/pdf/2501.00912),思想就是通过微调LLAMA模型来生成Python代码,具体基于8B LLaMA+7000对指令和幻灯片生成代码进行训练。
例如,对应的一条微调数据如下:
或者在一次生成ppt后,可以再次进行修正。
这个工作还做了个事情,提出了SLIDESBENCH基准测试,这是第一个用于幻灯片生成的基准测试,包含7k训练和585测试示例,来自10个领域的310个幻灯片,这个数据集可以用下。
最近的工作《SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design》,https://arxiv.org/pdf/2506.07964,https://github.com/vinsontang1/SlideCoder(代码还未公开)
其思想很简单,为一种布局感知的检索增强生成框架,用于从设计图像生成可编辑的幻灯片。
1、核心之一:层次化检索增强生成
这个指的是,采用层次化检索增强生成(Hierarchical Retrieval-Augmented Generation, H-RAG)方法,包括形状类型知识库和操作函数知识库。前者包含来自python-pptx文档的对象描述,用于指导描述器生成标准化描述。例如,“这个自动形状包括一个文本框...”中的两个术语都是文档中的对象名称,后者包括完整的语法规范(例如参数、返回值等)。如下面的一个例子:
包含三个协作代理:Describer、Coder和Assembler,如下图:
描述器Describer负责生成全局和块级别的描述;
编码器Coder生成代码片段,这个代码片段采用RAG的方式进行合成,所以会用到对应的知识库,这个主要采用BGEM3-嵌入,对于提示p,计算其向量,将前k个相关条目插入到p中。
组装器Assembler使用布局感知提示生成完整的幻灯片代码,也就是Assembler中引入布局感知提示,提示模板结合了参考图像设计、全局描述、部分代码、布局表示和从H-RAG知识库中检索到的语法模式。
整个流程就是:描述器从形状类型知识库检索对象类型,以识别块图像中的元素并输出标准化描述;编码器使用这些信息查询操作函数知识库并生成代码片段。组装器使用这些片段检索完整的语法模式并生成可执行代码。
例如,对应的prompt如下:
2、核心之二:图像分割
布局的生成很重要,这是第一步,基于颜色梯度的分割算法(Color Gradients-based Segmentation, CGSeg),将幻灯片图像分割成语义上有意义的区域。
分成几个步骤:
1)划分(Grid Blocks):将输入图像划分为网格,并计算每个块的梯度幅度,标记出梯度幅度显著高于中位数的激活块;
2)填充(Flood-filled):对激活块进行洪水填充操作,识别出连通区域,这些区域对应于子图像;
3)递归分割(recursively segments):对子图像进行进一步的递归分割,确保图像的层次分解,同时保留相应的位置信息。
这其实也说明,布局信息很有意义。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-13
Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者
2025-06-13
药械营养保健企业的Agentic AI应用(罕见病诊断、患者护理、生产检测等)全解析
2025-06-13
深度研究:模型即产品,智能体即利润
2025-06-13
如何像 Manus 交付业务需求-- OneAgent + MCPs 范式
2025-06-13
LLM评估:从原型开发到生产部署的全流程实践(含code)
2025-06-13
拒绝碎片化 RAG,谷歌 DeepMind 推出 ReadAgent:模拟人类阅读长文本,或是NotebookLM底层技术?
2025-06-13
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
2025-06-13
Agent工程能力思考记录
2025-05-29
2025-03-20
2025-03-21
2025-03-16
2025-03-16
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-06-13
2025-06-13
2025-06-12
2025-06-12
2025-06-12
2025-06-12
2025-06-12
2025-06-12