微信扫码
添加专属顾问
我要投稿
最近学习AI的时候,经常要看一些视频资料。但有些视频内容比较长,完整看下来比较花时间。
所以,就想着用大模型对视频内容先做一次总结,然后再有选择性地去看。
一不小心,就开发了一个视频总结智能体。
下面就给朋友们分享一下核心科技,啊哈哈。
第一步,获取视频
这里用小破站上讲解 GPT 的视频为例
用扣子中的插件,输出视频url就可以下载视频
第二步,提取视频内容
这里只提取了视频字幕。分两小步,先分离视频中的音频,再调用ASR语音识别技术,将音频转成文本。
这两步虽然在扣子中都有对应的插件,但我试了下没成功。就自己动手开发了一个插件。
代码是用大模型生成的。将插件发布后,就可以在工作流中使用了
第三步,总结视频内容
这个视频有27分钟,并且是英文版,提取的字幕大小30kb。长文本内容总结,当然用 Kimi。
Kimi可以帮我们总结、提炼,生成中文版的核心要点。
纯文字版内容读起来还是差点意思,我们可以继续添加插件,将 Kimi 生成的内容做成思维导图。
这样,一个27分钟的视频,经过智能体总结,分分钟掌握其中的核心要点。学习效率嗖嗖的。
这个智能体我们只能提取了字幕进行总结,其实还可以提取视频关键帧,送入视觉大模型,进行内容生成或者问答。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-16
新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了
2025-09-16
Subagents:构建高可靠 AI Coding 专家顾问团
2025-09-16
刚刚!阿里发新模型,幻觉率爆降70%
2025-09-16
Agent三大痛点:知识库+工作流+Prompt工程
2025-09-16
Anthropic发布首个AI经济指数报告:越富越用AI,企业比个人更信任AI
2025-09-16
Claude Code与GitHub结合使用的实践指南
2025-09-16
企业复杂Agent落地的12个工程化原则 | 原则二:构建Prompt工程可扩展、可维护、可调试、可回滚 | 提示词A/B实验
2025-09-16
OpenAI深夜放出「编程核弹」:GPT-5-Codex 正式发布,能独立爆肝7 小时
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08