推荐语
亲身体验字节跳动最新AI硬件和模型,效果惊艳!
核心内容:
1. 豆包思考模型和视觉模型的强大性能及多模态能力
2. MCP应用DeepSearch,专为复杂问题设计的工具
3. 火山方舟AI硬件一站式解决方案,小巧却能量巨大
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
1.全新的豆包思考模型Doubao-1.5-thinking-pro和豆包视觉模型Doubao-1.5-vision-pro;
2.MCP应用 - DeepSearch,可以接入丰富的MCP工具,专为复杂问题而生;
3.方舟 x RTC硬件,打造AI硬件的一站式解决方案;
4.火山方舟应用实验室开源生态。
先说说豆包思考模型Doubao-1.5-thinking-pro它不仅效果好,延迟低,还支持多模态(拥有视觉能力)因为智能体客户对模型API请求量有要求,我之前刻意对比过,发现火山应该是目前大模型API里面支持并发最高的平台了
支持每分钟3万次请求和500万tokens,比其他平台高了不止一个数量级
视觉模型Doubao-1.5-vision-pro也非常nice我搞了一张杰伦哥的照片,问它在不在合照里面,它居然没上当。看到回复的结果,我当时一下子鸡皮疙就起来了!它真的知道...虽然目前还无法准确的判断出在第几排,第几个,但已经很强了。
随后是MCP应用-DeepSearch:是一款专为处理复杂问题而精心设计的高效工具(边思考,边选择合适的MCP工具完成任务)。有兴趣的朋友可以访问火山方舟->模型广场,第一个应用就是DeepSearchhttps://console.volcengine.com/ark但目前只支持内置的几个MCP,自由度差了一些(官方透露最近会支持外接MCP)可以先期待一波。对我来说,最新奇、最特别、最爱不释手的还是他们展示的最新AI硬件一站式解决方案。这个AI硬件就是下图桌子上这堆,当时还有群友在问能不能都打包回来?但弱水三千,只取一瓢,搞一个够用了(拆开包装,就下图这个mp3大小的玩意儿)别看这个玩意儿这么小一点点,但蕴含大大的能量,我真的太爱它啦!!
其实去年我就分享过一篇关于AI玩具的文章。那篇分析了AI玩具的整个工作原理。在今年的3月份,我又分享了一篇用DeepSeek拯救我的小米音箱(小爱同学)的教程。袋鼠帝,公众号:袋鼠帝AI客栈小米音箱+DeepSeek,小爱秒变"贾维斯"!【喂饭级教程】
直到我体验了这个火山方舟 RTC 与嵌入式芯片厂商合作的Demo产品:AtomS3R 开发板思路打开,换个更好用、更丝滑的AI产品不就好了嘛。咱们先重点关注AI硬件效果。模型的回复效果,支持自己DIY(别急,后面有讲)
毫秒级实时响应,实时打断,再实时接话,仿佛在跟一个真人通话一样。小爱同学会经常在我玩PUBG战况激烈的时候,突然答腔,这点真的非常令人烦躁(喜欢玩枪战游戏的铁子应该懂,要听脚步)平时也会莫名其妙出声,关键是本身是有“小爱同学”作为唤醒词的,但完全不管用。AtomS3R 开发板非常牛逼的一点就是,即便没有唤醒词(代表随时都可以唤醒),只要我不对他说话,它就不会回复(我测试了,在它旁边打box,吹口哨,弄出各种奇怪的声音,都没用)。查了一下官方资料,这得益于火山通过 RTC SDK 实现了对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,从而提高用户语音打断的准确性。你可能会说,这有啥,OpenAI的ChatGPT App上面不是早就有了吗?但是OpenAI,他Open吗,而且它延迟挺明显的。说实话,如果那天现场体验的是一个成熟的产品,我可能反而并不会太兴奋。就因为这玩意儿,它从客户端代码,到服务端程序都是开源的!才更令人兴奋呀整个体验也都是在我本地搭建起来的,只不过大模型和TTS的功能调用了火山引擎的API接口。架构图如下
开源Demo地址:
https://github.com/volcengine/rtc-aigc-embedded-demo.git
而是,这意味着,我们完全可以自己DIY这个AI硬件。切换不同音色、甚至使用克隆音色(比如周董、志林姐姐...)接入搭载AI知识库的Agent(智能体),有问题,随时用嘴问,回答更专业。接入搭载各种MCP的Agent,用嘴玩MCP,打造真听话AI等等...更有意思的是,它跟mp3一样大,完全可以随身携带,如果再让它通过耳机回复,有没有一种萧炎随身带着药老的感觉?虽然它现在还只是一个开发板,但我仿佛已经看到了智能玩具、智能家居、智能穿戴设备、智能教育设备、AI 机器人等领域美好的未来。不过有一点不得不吐槽一下, 在本地搭建这套AI硬件的一站式解决方案,还真挺费劲的(主要还是对硬件/嵌入式开发这块生疏了)。即便火山给了一个操作文档,但我也还是耗费了不少时间中途也遇到不少问题,还专门请教了火山的开发同学,才搞定。最后,大家应该也注意到了这个AI硬件其实还长了个摄像头,这意味着它是可以实时捕捉画面的(长了个眼睛)不敢想象一个能听会说、还会看的专属DIY Agent硬件有多棒,先狠狠期待一波![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()