微信扫码
添加专属顾问
我要投稿
AI技术的又一突破,视频一键转图文,高效便捷! 核心内容: 1. AI视频图文创作助手Web工具,一键转换视频音频为文档 2. 支持多种文档风格,如小红书、公众号、知识笔记等 3. Docker和前端本地部署指南,轻松上手使用
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
✅ 完全开源:MIT 协议授权,支持本地部署。
? 隐私保护:无需登录注册,任务记录保存在本地
? 前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg
? 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
? AI 对话:支持针对视频内容进行 AI 二次问答。
? 支持字幕导出: 结果一键导出为字幕文件。
? 一键部署:支持 Docker 一键部署。
1️⃣:镜像构建:
$ make docker-image
2️⃣:请根据 后端部署指引 / 配置项说明 完善根目录下的 variables.env 文件。
3️⃣:修改前端的 evn.development 中的 VITE_API_BASE_URL 为 http://0.0.0.0:8080
4️⃣:运行项目
$ make run
后端依赖于字节跳动火山引擎高代码 SDK Arkitect 高代码 SDK Arkitect。 在启动后端服务之前, 需要先安装好 Arkitect 的依赖, 并且申请字节 Tos 对象存储服务 以及 对应大模型的 API 调用权限
注意 ⚠️: 请至少保证你本地的 Python 版本为 3.9 及以上, 否则可能会出现依赖无法安装, 项目启动失败等问题。
安装依赖
pip install -r requirements.txt
配置环境变量
export ENDPOINT_ID=xxxx
export ARK_API_KEY=xxxx
export TOS_ACCESS_KEY=xxxx
export TOS_SECRET_KEY=xxxx
export TOS_ENDPOINT=xxxx
export TOS_REGION=xxxx
export TOS_BUCKET=xxxx
export AUC_APP_ID=xxxx
export AUC_ACCESS_TOKEN=xxxx
启动服务
python main.py
安装 Node.js
要求 node 版本为 20+, 我本地的 node 版本为 22.0.0
安装依赖
npm install
启动服务
npm run dev
浏览器访问
打开浏览器访问 http://localhost:5173/ 即可。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-05
AReaL v1.0 正式发布:面向 Agent 的全异步强化学习训练框架
2026-03-05
Qwen 和钉钉,无招和俊旸
2026-03-04
开启极简养虾,用 TRAE 快速部署 OpenClaw
2026-03-04
ollama v0.17.5正式发布:新增Qwen3.5系列模型,全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解
2026-03-03
4 天 6.8K Star,这个 AI 漫剧项目火了:waoowaoo!
2026-03-02
FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式
2026-03-02
137K 行代码、零 clippy 警告:这个开源项目凭什么让 AI Agent 领域炸锅?
2026-03-01
别总盯着 Claude Cowork 了,OpenWork 开源版来了,功能直接拉满!Windows 客户端
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2025-12-22
2026-01-27
2026-01-28
2026-01-21
2025-12-10
2025-12-23
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16