我要投稿

做完100个ASMR视频后，5万人围观我的AI吃饭吧唧嘴

发布日期：2025-07-04 18:26:35 浏览次数： 2454

作者：卡尔的AI沃茨

微信搜一搜，关注“卡尔的AI沃茨”

ASMR 应该算是最长寿的ai视频制作模版了，过去一个月，我这两天某书还有5万人看。。。

那种一刀切到底的舒适之感配合上清脆得不真实的音效，真的是刷短视频路过都舍不得划走的放松方式了。（告诉修驴蹄的我今天先不回去了）

今天 ASMR 的视频价格也被打下来了，1个1块钱，比Veo3便宜了10倍

动态效果都还行，听声音质感都差不多，画面清晰度和细节展现也都大差不差的，第一条就是我发现的平价款

vivago 2.0

之前我测过它1.0版本的图像生成能力，当时在写实这块就已经完胜 Flux 了，

2.0刚上线，我就看到鱿鱼游戏的玩梗视频（第三部太烂了别看，能救一个是一个），

正好 veo3 用起来真的太心疼，使用门槛还高，这期我们就来看看 vivago 2.0 效果怎么样，Here we go！

01｜ASMR大合集

想要看一个视频模型的音效生成能力，其实像我们一开始看到的那个ASMR视频是很好的一种测试方式，画面相对简单，观众的感受会更放在模型对于画面音效的理解和生成上。

（冷知识）ASMR，全称为自主性感官经络反应，是一种通过特定声音、视觉或其他感官刺激，引发头部、颈部等部位产生愉悦、放松感的现象。

所以这次，我给 vivago 2.0 来了史诗级难度测试，上 ASMR大集合！

现在火的ASMR也就分两种，要么切切东西，要么吃吃东西，这两部分我自然也是都给vivago 2.0测了一番。

先看切东西，这每一刀切的都很实在，刀刃和物体接触很有实感，而且能清晰的听到刀落下的声音还有相应的切割物体的声音，每一刀都对得上物体材质，说明它在生成声音时不仅识别了“切”这个动作，还分辨了被切物的属性。

实测下来，先花1积分用vivago 2.0生成一张图片再图生视频，稳定性会更高。

再看吃东西，就很有吃播那个味儿了，每嚼一下声音都很清晰的，甚至能听到吧唧嘴的声音，食物的质感和口腔与食物接触发生的声音都对得上。

大鸡腿大鸡腿大鸡腿！

当然，ASMR绝不止这两种，我故意选了四个我平时刷到会秒停的解压内容让 vivago 2.0来生成，谁能想到我一天会在看AI修驴蹄子呢。

当然，重要的不是驴蹄子，而是这种专注于声音的场景，vivago 2.0 目前做的都蛮符合现实的。

最后，我还测了适合放在耳边入眠的“自然白噪音”，简直就是失眠人士的福音：

打雷的声音是跟随着画面来的，海浪声是清晰的，草地和风声还有电扇呼呼作响，都让人感觉能够放松下来。

02｜音画同步

接下来，我们再来看几个视频动态比较大和音频效果比较丰富的case，从声画同步和语义理解两方面具体来看看vivago 2.0的能力。

先看一个简单的：

这个画面首先很漂亮，手部细节画的非常好，然后我让它“手指每次敲击都会产生同步的琴键声“，可以听到琴键声和手指落下的动作是吻合的，既做到了声画同步也很好的理解了我给出的提示语。

再看一个进阶的画面：

这个视频我给出的提示语是：

“一个年轻人冲出房间，砰的一声关上了他身后的木门。摄像机捕捉到门框的震动和墙上的相框轻微晃动。关门的声音伴随着响亮的“砰”的一声，与门扇撞击门框的声音完美同步。”

画面和提示语都对应的上，而且人物的动作很自然，最后这个响亮的关门还做出了震出大量灰尘，声画完美同步。

最后来看一个我个人觉得还有点厉害的案例：

公司里两个职员在进行激烈的争执，虽然我听不懂他们在说什么，但嘴形竟然都对上了，有种一本正经演戏的感觉，音频和画面对应程度还是很好的。（叽里咕噜说啥呢，给我转两百）

除了上面我们讲的音频功能外，vivago2.0的视频动态能力也是挺强的，

除了生成图片、视频、音效、对口型等等，vivago2.0还支持非常多的特效模版。

上面我提到的所有高清视频都打包好了，后台回复“智象”就行。

03｜技术拆解

虽然 vivago2.0 没有发布详细的技术文档，但从我实测这百条视频的表现来看，它的音频能力绝不是简单的“背景音乐+贴音效”。

大概率是用了多模态建模结构，把图像、文字和声音信息都放进一个上下文里联合理解。

像“切菜”这种场景，它不是在你输入“切东西”的时候随机贴个“咔哧”音效，而是真的在图像里识别了“切入”“接触”“滑动”这些动作，并逐帧判断哪一帧该响、响多久、响在哪里。

再比如我做的驴蹄修复视频，它会判断敲击的力道和节奏，刀和驴蹄接触时会带有轻微的共振和回响。这就说明它的声源不是统一背景声，而是“空间定位过”的音效贴合。

哪怕没有字幕、没有明确指令，它也能靠画面判断该出什么声、不该出什么声。

音频内容未必精细到 Foley（拟音级别），但已经可以看出AI对声音氛围的理解逐渐进入到了实用期。

就比如你生成一个“一只猫跳上桌子”的视频，

出来的视频中会有动势的声音，还有猫叫声和桌面晃动的环境反响。

你不会有那种声音迟到的违和感，这就说明它至少做了时序建模和触发点配音的基本功。

总结一句话就是：

它不是生成了个有声音的视频，而是把声音作为画面的一部分做出来的。

写在最后

画质不夸张，效果不过饱，

声音不抢戏，性价比还高，

正是这种“刚刚好”，让 vivago 成为了我近期创作节奏里很舒适的一个工具。

因为它在我需要灵感落地的时候，

真的能不心疼的就用起来。

AI 视频这个行业现在有意思的点就在于：

你不再需要等一个超级模型出现，

而是可以围绕自己的任务，慢慢攒出一支「AI 副驾小分队」，

现在我只希望，

像 vivago 这种稳且实的模型，

能越来越多，

然后跳到我碗里来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-21

体验完阿里首款Design Agent，我开始替UI/前端焦虑了..

2026-05-19

不要再直接把 UI 图转成代码了，先看这份 UI Spec 模板

2026-05-18

Git issue + PR：律师的下一代协作方式

2026-05-16

从Markdown到HTML：AI应用分发的下一个路口

2026-05-06

Amazon Quick桌面版：读文档、做PPT、查邮件，一句话全搞定

2026-04-28

gpt-image-2发布后，PPT最强skill

2026-04-18

刚刚，Claude Design 发布！网友：将摧毁设计行业……

2026-04-14

纳米漫剧流水线，我劝你别太离谱

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-21

AI时代的"无界面"交互趋势——兼论用户体验行业发展（长文）

2026-03-09

从生成到交付：AI 做游戏，关键在「边界、地图、循环」

2026-03-05

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

2026-03-09

为什么 LSP Language Server 对 Coding Agent 很重要

2026-03-12

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-24

“洗代码即服务”火了！“开源代码洗白”奇葩网站上线，反讽白嫖企业：开源合规太昂贵了！CC逆向复刻客户软件，十分之一的价格转卖！

2026-03-13

纳米漫剧流水线，我劝你别太离谱

2026-04-14

刚刚，Claude Design 发布！网友：将摧毁设计行业……

2026-04-18

大家都在问

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

你用AI做的应用，是在挠自己的痒痒吗？

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw