我要投稿

AI-Media2Doc: 视频一键转图文的 AI 工具

发布日期：2025-05-28 11:54:40 浏览次数： 2310

作者：小众智能

微信搜一搜，关注“小众智能”

AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署，以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

主要功能

✅ 完全开源：MIT 协议授权，支持本地部署。
? 隐私保护：无需登录注册，任务记录保存在本地
? 前端处理：采用 ffmpeg wasm 技术，无需本地安装 ffmpeg
? 多种风格支持：支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
? AI 对话：支持针对视频内容进行 AI 二次问答。
? 支持字幕导出: 结果一键导出为字幕文件。
? 一键部署：支持 Docker 一键部署。

安装和使用

? docker 本地一键部署

1️⃣：镜像构建：

$ make docker-image

2️⃣：请根据后端部署指引 / 配置项说明完善根目录下的 variables.env 文件。

3️⃣：修改前端的 evn.development 中的 VITE_API_BASE_URL 为 http://0.0.0.0:8080

4️⃣：运行项目

$ make run

后端本地部署

后端依赖于字节跳动火山引擎高代码 SDK Arkitect 高代码 SDK Arkitect。在启动后端服务之前, 需要先安装好 Arkitect 的依赖, 并且申请字节 Tos 对象存储服务以及对应大模型的 API 调用权限

注意 ⚠️：请至少保证你本地的 Python 版本为 3.9 及以上, 否则可能会出现依赖无法安装, 项目启动失败等问题。

安装依赖

pip install -r requirements.txt

配置环境变量

export ENDPOINT_ID=xxxx
export ARK_API_KEY=xxxx
export TOS_ACCESS_KEY=xxxx
export TOS_SECRET_KEY=xxxx
export TOS_ENDPOINT=xxxx
export TOS_REGION=xxxx
export TOS_BUCKET=xxxx
export AUC_APP_ID=xxxx
export AUC_ACCESS_TOKEN=xxxx

启动服务

python main.py

前端本地部署

安装 Node.js

要求 node 版本为 20+, 我本地的 node 版本为 22.0.0

安装依赖

npm install

启动服务

npm run dev

浏览器访问

打开浏览器访问 http://localhost:5173/ 即可。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-05

AReaL v1.0 正式发布：面向 Agent 的全异步强化学习训练框架

2026-03-05

Qwen 和钉钉，无招和俊旸

2026-03-04

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解

2026-03-03

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-02

FireRed-OCR 开源发布：端到端方案新SOTA！小红书提出低成本文档识别训练范式

2026-03-02

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-01

别总盯着 Claude Cowork 了，OpenWork 开源版来了，功能直接拉满！Windows 客户端

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

2025-12-22

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

OpenWork：Claude Cowork 的开源替代品

2026-01-21

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw