我要投稿

开源+AI双 buff！Paper2Slides：让论文转幻灯片，从 “耗时半天” 到 “1 分钟搞定”

发布日期：2026-01-21 08:30:38 浏览次数： 1783

作者：趣谈AI

微信搜一搜，关注“趣谈AI”

上期和大家分享了我们精心打磨的协同AI文档 JitWord：

体验地址：https://jitword.com

今天要聊的 Paper2Slides，是由 HKUDS 团队开发的、能把论文一键转换成专业级幻灯片 / 海报的开源 AI PPT工具。

我试过之后发现，它不止是 “偷懒神器”，背后的技术设计更是值得细品，今天就带大家从功能到架构，把这个项目扒得明明白白。

Paper2Slides 到底是什么

说白了，Paper2Slides 解决的是科研人 / 学生的核心痛点：明明论文内容都有了，却要花几小时甚至几天排版幻灯片，要么格式杂乱，要么关键信息遗漏，要么设计感拉垮。

而这个工具能做到 —— 丢进去一篇论文（PDF/Word/Markdown 等格式都可），指定风格和长度，一键生成符合学术规范、设计精美的幻灯片 / 海报，全程不用手动敲一个字的框架。

老规矩，先上开源地址。

github地址：https://github.com/HKUDS/Paper2Slides

功能亮点：不止是 “一键生成”

Paper2Slides 的好用，体现在它把 “精准” 和 “灵活” 做到了极致，这些亮点值得重点说：

1. 解决做幻灯片的 3 大核心问题

信息提取不精准
普通 AI 总结容易丢关键公式、数据，它基于 RAG（检索增强生成）机制，能精准抓取论文里的核心公式（LaTeX 格式保留）、实验数据、对比指标，甚至连表格里的具体数值都不会错；
格式杂乱不专业
支持 “哆啦 A 梦”“学术风” 等预置样式，也能通过自然语言描述自定义风格，生成的幻灯片直接达到投稿级设计标准；
反复修改太耗时
自带断点续传功能，暂停、切换风格、调整长度都不会丢失进度，还支持并行生成，速度直接翻倍。

2. 超实用的细节设计

多格式兼容
PDF、Word、Excel、PPT、Markdown 都能喂进去，甚至支持多文件同时处理；
来源可追溯
生成的内容和原文一一对应，不会出现 “AI 编造信息” 的情况，学术严谨性拉满；
两种输出形态
既能生成幻灯片（可指定短 / 中 / 长长度），也能生成学术海报（支持稀疏 / 中等 / 密集三种密度），覆盖会议、答辩、展示等多种场景。

技术架构：拆解 “一键生成” 的底层逻辑

很多人用工具只看表面，其实 Paper2Slides 的架构设计，才是它能精准生成内容的关键。我把它的核心流程拆成了 4 个阶段，用通俗的话讲清楚：

分步拆解：从论文到幻灯片的全过程

1. 文档解析层：先把论文 “拆成可处理的样子”

不管是 PDF 还是 Word，第一步都是转换成统一的 Markdown 格式，同时专门提取表格、图片、公式 —— 比如把论文里的表格转成 HTML 格式保留原始数据，公式保留 LaTeX 代码，图片记录位置和描述。这一步的核心是 “结构化”，为后续 AI 处理打下基础，避免 AI 只认文字、丢了图表的问题。

2. RAG 检索层：让 AI “精准读懂” 论文

普通 AI 生成内容容易 “瞎编”，但 Paper2Slides 用了 RAG（检索增强生成）：先把解析后的论文内容做索引，当需要生成某一页幻灯片时，AI 会先从索引里检索对应的原文内容，再基于检索结果整理，而不是凭空生成。这就保证了内容 100% 来自论文，不会遗漏关键数据、公式，也不会出现信息漂移。

3. 内容规划层：AI 按 “幻灯片逻辑” 重组内容

这是最核心的一步，项目里专门写了上千行的 LLM 提示词（prompt），规定了幻灯片的结构：

固定包含标题页、背景 / 问题页、方法 / 方案页、结果 / 实验页、结论页；
方法页要求详细描述每个步骤，保留公式和变量解释；
结果页要求提取真实实验数据，对比基线模型的具体数值；
每一页内容都有字数要求（比如非标题页至少 150-200 字），避免内容太单薄。

简单说，就是用精准的 prompt 约束 AI，让它按照学术幻灯片的逻辑，把论文内容拆分成一页页有标题、有细节、有图表的幻灯片框架。

4. 渲染输出层：把框架变成可视化幻灯片

最后一步是把 AI 规划的内容，按指定样式（比如哆啦 A 梦风、学术风）渲染成 PDF 格式的幻灯片 / 海报。项目里内置了样式模板，也支持自然语言自定义样式，比如你说 “想要清新的蓝色系，标题用黑体，内容用宋体”，AI 会按这个要求调整格式。

核心技术栈清单：藏着 “跳槽彩蛋”

Paper2Slides 的技术栈都是当下 AI 工程化的主流选型，整理成清单给大家，顺便埋个小彩蛋👇：

这些技术栈覆盖了 AI 应用开发的核心环节，把这个项目吃透，不管是进大厂做 AI 应用，还是接外包做定制化工具，都够用了。

应用场景：谁用谁香？

Paper2Slides 不是 “小众玩具”，而是能落地的实用工具，这些场景都能用上：

1. 高校学生 / 科研人员
毕业论文答辩、会议汇报，一键把论文转成规范的幻灯片，节省排版时间；
2. 高校老师
把教研论文、课程资料转成课件，自定义风格适配不同课堂；
3. 企业研发岗
把技术白皮书、研究报告转成对内 / 对外的演示文稿，保证信息精准且格式统一；
4. 自由职业者
给客户做学术类演示文稿时，用它快速出初稿，再微调即可交付。

优缺点：客观聊聊，不吹不黑

优点我总结如下：

1. 痛点抓得准
直击 “论文转 PPT” 的核心需求，解决了信息遗漏、格式不专业、耗时久的问题；
2. 技术扎实
RAG + 精准 Prompt 的组合，比普通 AI 总结更靠谱，学术严谨性有保障；
3. 部署友好
支持 Docker 一键部署，也能本地用命令行运行，技术小白也能上手；
4. 灵活性高
自定义样式、长度、密度，能适配不同场景的需求。

缺点如下：

1. 依赖 API 密钥
需要配置 OpenAI/DeepSeek/Gemini 的 API 密钥，有一定使用成本；
2. 对低质量论文兼容一般
如果论文本身格式混乱、信息不完整，生成的内容也会受影响；
3. 样式定制深度有限
虽然支持自定义样式，但相比专业设计工具，细节调整空间还不够大；
4. 仅支持 Python 环境
非技术人员如果想二次开发，有一定门槛。

本地部署教程：5 步搞定

不管是想体验还是二次开发，本地部署都很简单，分 Docker 和原生两种方式，推荐 Docker（跨平台无坑）：

Docker 部署（推荐）

1. 环境准备

安装 Docker Desktop（20.10 + 版本），确保开启 WSL2（Windows 用户）；
安装 Git，预留至少 4GB 内存。

2. 克隆项目

# 打开终端，进入想要存放项目的目录cd C:\Users\你的用户名\Documents# 克隆仓库git clone https://github.com/HKUDS/Paper2Slides.git# 进入项目目录cd Paper2Slides

3. 配置环境变量

# 复制示例.env文件copy paper2slides\.env.example paper2slides\.env# 编辑.env文件，添加API密钥（OpenAI/DeepSeek/Gemini至少填一个）# 比如：OPENAI_API_KEY=你的密钥

4. 启动服务

# 启动Docker容器（从项目根目录运行）docker-compose -f docker/docker-compose.yml up -d# 查看日志，确认启动成功docker-compose -f docker/docker-compose.yml logs -f

5. 访问使用

网页端：打开http://localhost:5173，上传论文文件，选择样式 / 长度，点击生成即可；
命令行（进阶）：进入容器执行命令

吃瓜时间：官方 Roadmap 泄密（未经官方证实，仅供吃瓜）

据圈内朋友透露，Paper2Slides 后续可能会更新这些功能：

支持更多 LLM 模型（比如国产的通义千问、文心一言），摆脱对 OpenAI 的依赖；
增加 “幻灯片编辑功能”，支持在线微调内容和样式；
推出私有化部署版本，适配高校 / 企业内网使用；
支持多语言论文（比如日文、德文）的转换。

虽然还没官宣，但这些方向都很贴合用户需求，值得期待。

总结：不止是工具，更是 AI 提效的思路

Paper2Slides 之所以能火，本质是它把 “AI 提效” 落到了实处 —— 不是简单的文本生成，而是结合 RAG 解决 “精准性”，结合 Prompt 解决 “结构化”，结合工程化设计解决 “易用性”。

对我们开发者来说，这个项目不仅能拿来直接用，更能学习到 “如何把 AI 能力落地成实用工具”：比如怎么用 RAG 保证内容精准，怎么写高质量的 Prompt 约束 AI 输出，怎么设计断点续传、并行处理这些工程化细节。

如果你是科研人，它能帮你省下做幻灯片的时间；

如果你是开发者，它是学习 AI 应用开发的绝佳案例。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-07

Release News - Ollama v0.17.7

2026-03-07

苹果画了2年的饼，小米先吃上了……

2026-03-06

DeepSeek V4 本周登场：万亿参数只是开胃菜，真正的大招在后面

2026-03-06

ollama v0.17.6 发布：重大解析修复与 Qwen3.5 完整支持，全链路优化模型渲染与工具调用

2026-03-06

Codex重磅更新：在CLI中语音Vibe Coding

2026-03-05

AReaL v1.0 正式发布：面向 Agent 的全异步强化学习训练框架

2026-03-05

Qwen 和钉钉，无招和俊旸

2026-03-04

开启极简养虾，用 TRAE 快速部署 OpenClaw

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

2025-12-22

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

OpenWork：Claude Cowork 的开源替代品

2026-01-21

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw