支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


做完100个ASMR视频后,5万人围观我的AI吃饭吧唧嘴

发布日期:2025-07-04 18:26:35 浏览次数: 1523
作者:卡尔的AI沃茨

微信搜一搜,关注“卡尔的AI沃茨”

推荐语

AI视频制作新宠!Vivago 2.0以超低价打造沉浸式ASMR体验,修驴蹄、吃播、白噪音全搞定,5万人已沦陷。

核心内容:
1. Vivago 2.0在ASMR视频生成上的突破表现
2. 实测切物/进食/自然音效三大场景的惊人音画同步
3. 1元/视频的超高性价比与市场潜力分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

    ASMR 应该算是最长寿的ai视频制作模版了,过去一个月,我这两天某书还有5万人看。。。

    那种一刀切到底的舒适之感配合上清脆得不真实的音效,真的是刷短视频路过都舍不得划走的放松方式了。(告诉修驴蹄的我今天先不回去了)

    今天 ASMR 的视频价格也被打下来了,1个1块钱,比Veo3便宜了10倍,来看看这四个视频:

    动态效果都还行,听声音质感都差不多,画面清晰度和细节展现也都大差不差的,第一条就是我发现的平价款

    vivago 2.0

    之前我测过它1.0版本的图像生成能力,当时在写实这块就已经完胜 Flux 了,

    AI界出了又会画画还能修图的大象,把Flux们都打败了

    2.0刚上线,我就看到鱿鱼游戏的玩梗视频(第三部太烂了别看,能救一个是一个),

    正好 veo3 用起来真的太心疼,使用门槛还高,这期我们就来看看 vivago 2.0 效果怎么样,Here we go!


     01|ASMR大合集 

    想要看一个视频模型的音效生成能力,其实像我们一开始看到的那个ASMR视频是很好的一种测试方式,画面相对简单,观众的感受会更放在模型对于画面音效的理解和生成上。

    (冷知识)ASMR,全称为自主性感官经络反应,是一种通过特定声音、视觉或其他感官刺激,引发头部、颈部等部位产生愉悦、放松感的现象。

    所以这次,我给 vivago 2.0 来了史诗级难度测试,上 ASMR大集合!

    现在火的ASMR也就分两种,要么切切东西,要么吃吃东西,这两部分我自然也是都给vivago 2.0测了一番。

    先看切东西,这每一刀切的都很实在,刀刃和物体接触很有实感,而且能清晰的听到刀落下的声音还有相应的切割物体的声音,每一刀都对得上物体材质,说明它在生成声音时不仅识别了“切”这个动作,还分辨了被切物的属性。

    实测下来,先花1积分用vivago 2.0生成一张图片再图生视频,稳定性会更高。

    再看吃东西,就很有吃播那个味儿了,每嚼一下声音都很清晰的,甚至能听到吧唧嘴的声音,食物的质感和口腔与食物接触发生的声音都对得上。

    大鸡腿大鸡腿大鸡腿!

    当然,ASMR绝不止这两种,我故意选了四个我平时刷到会秒停的解压内容让 vivago 2.0来生成,谁能想到我一天会在看AI修驴蹄子呢。

    当然,重要的不是驴蹄子,而是这种专注于声音的场景,vivago 2.0 目前做的都蛮符合现实的。

    最后,我还测了适合放在耳边入眠的“自然白噪音”,简直就是失眠人士的福音:

    打雷的声音是跟随着画面来的,海浪声是清晰的,草地和风声还有电扇呼呼作响,都让人感觉能够放松下来。


     02|音画同步 

    接下来,我们再来看几个视频动态比较大和音频效果比较丰富的case, 从声画同步和语义理解两方面具体来看看vivago 2.0的能力。

    先看一个简单的:

    这个画面首先很漂亮,手部细节画的非常好,然后我让它“手指每次敲击都会产生同步的琴键声“,可以听到琴键声和手指落下的动作是吻合的,既做到了声画同步也很好的理解了我给出的提示语。

    再看一个进阶的画面:

    这个视频我给出的提示语是:

    “一个年轻人冲出房间,砰的一声关上了他身后的木门。摄像机捕捉到门框的震动和墙上的相框轻微晃动。关门的声音伴随着响亮的“砰”的一声,与门扇撞击门框的声音完美同步。”

    画面和提示语都对应的上,而且人物的动作很自然,最后这个响亮的关门还做出了震出大量灰尘,声画完美同步。

    最后来看一个我个人觉得还有点厉害的案例:

    公司里两个职员在进行激烈的争执,虽然我听不懂他们在说什么,但嘴形竟然都对上了,有种一本正经演戏的感觉,音频和画面对应程度还是很好的。(叽里咕噜说啥呢,给我转两百)

    除了上面我们讲的音频功能外,vivago2.0的视频动态能力也是挺强的,


    除了生成图片、视频、音效、对口型等等,vivago2.0还支持非常多的特效模版。

    上面我提到的所有高清视频都打包好了,后台回复“智象”就行。


     03|技术拆解 

    虽然 vivago2.0 没有发布详细的技术文档,但从我实测这百条视频的表现来看,它的音频能力绝不是简单的“背景音乐+贴音效”。

    大概率是用了多模态建模结构,把图像、文字和声音信息都放进一个上下文里联合理解。

    像“切菜”这种场景,它不是在你输入“切东西”的时候随机贴个“咔哧”音效,而是真的在图像里识别了“切入”“接触”“滑动”这些动作,并逐帧判断哪一帧该响、响多久、响在哪里。

    再比如我做的驴蹄修复视频,它会判断敲击的力道和节奏,刀和驴蹄接触时会带有轻微的共振和回响。这就说明它的声源不是统一背景声,而是“空间定位过”的音效贴合。

    哪怕没有字幕、没有明确指令,它也能靠画面判断该出什么声、不该出什么声。

    音频内容未必精细到 Foley(拟音级别),但已经可以看出AI对声音氛围的理解逐渐进入到了实用期

    就比如你生成一个“一只猫跳上桌子”的视频,

    出来的视频中会有动势的声音,还有猫叫声和桌面晃动的环境反响。

    你不会有那种声音迟到的违和感,这就说明它至少做了时序建模触发点配音的基本功。

    总结一句话就是:

    它不是生成了个有声音的视频,而是把 声音 作为 画面的一部分 做出来的。


     写在最后 

    画质不夸张,效果不过饱,

    声音不抢戏,性价比还高,

    正是这种“刚刚好”,让 vivago 成为了我近期创作节奏里很舒适的一个工具

    因为它在我需要灵感落地的时候,

    真的能不心疼的就用起来。

    AI 视频这个行业现在有意思的点就在于:

    你不再需要等一个超级模型出现,

    而是可以围绕自己的任务,慢慢攒出一支「AI 副驾小分队」,

    现在我只希望,

    像 vivago 这种稳且实的模型,

    能越来越多,

    然后跳到我碗里来。


    @ 作者 / 阿汤 & 卡尔@ 动手学AI知识库 / learnprompt.pro


    最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪|评论📣更多的内容正在不断填坑中……

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询