微信扫码
添加专属顾问
我要投稿
微软AI推出首款自研语音模型MAI-Voice-1,可玩性爆表,支持40种语体风格和角色扮演,实测体验惊艳! 核心内容: 1. MAI-Voice-1语音模型的高定制化功能与实测表现 2. MAI-1-preview基础模型的训练规模与应用场景 3. 微软AI CEO回应自研模型战略及与OpenAI关系
▲可供选择的部分语体风格(智东西实测)
▲输入中文文本后,也会自动转为英文
▲Mustafa Suleyman在微软发布会上(图源:微软)
Mustafa Suleyman:是的,它们是两个独立的模型。我们的语音模型表现非常出色,流畅、干净,而且富有表现力。我们希望确保微软始终有多种选择:会继续使用第三方开发者的模型,当然也会长期使用OpenAI的模型。同时我们也在用开源模型,并会坚持这样做。
我认为未来的关键知识产权在于编排器——它将决定在处理某类查询时该调用哪个模型。这就是我们12到15个月前确立的方法,也是我们现在所走的路线。
主持人:编排器,是不是意味着它会自动帮用户选择最合适的模型?
Mustafa Suleyman:可以把编排器理解为一个路由器,负责决定在何时将哪个请求交给哪个模型。
主持人:外界可能会把你们发布新模型解读为微软和OpenAI的关系出现疏远,或者说两者关系变冷。你怎么看?合作依然紧密吗?
Mustafa Suleyman:我们的目标是进一步深化与OpenAI的合作,确保这种关系能持续很多年。到目前为止,这种合作是非常成功的——他们从中获益很多,我们也是。我希望并且有信心我们会继续合作,我对此没有任何担忧。
主持人:你们公开披露模型是用15000张H100 GPU训练的,这很有意思,因为很多公司通常对此守口如瓶。现在有些公司动用的是10万颗H100 GPU,而且我们已经在迈向下一代GPU。你觉得是否可能用更少的GPU达到同样的效果?
Mustafa Suleyman:我认为我们已经证明了这是可能的。如今一个15000张GPU的集群,相比其他动辄使用数倍规模的来说,算是小的了。但即便如此,我们依然能获得世界级的性能。
这是一个超越其重量级的模型,表现不亚于世界上最顶尖的模型。而且这只是开始。一旦模型进入生产环境,开始收集反馈,迭代过程将显著提升性能。我们的团队已经做得非常好,这是一个重要的里程碑,但对我们来说这只是起点。
主持人:那你们有没有特别针对某些基准测试?
Mustafa Suleyman:我们在各种主流基准测试上都进行了训练。如今模型必须具备通用性,尤其是文本任务。同时我们也在逐渐扩展到多模态,因为多模态能让模型在更多数据上学习,从而表现得更好。我们对未来的发展持开放态度。
主持人:那MAI是否已经具备你所需要的资源?是不是GPU越多越好?
Mustafa Suleyman:我们刚刚开始在GB200上进行训练和测试。微软正在构建世界上最大规模的GB200、GB300集群之一。它们会为OpenAI提供支持,也会服务于MAI以及我们的付费推理合作伙伴。
我们有一个为期五年的宏大路线图,每个季度都会持续投入。这种趋势还会继续下去。
规模固然重要,但效率同样关键。这意味着要精挑细选高质量训练数据,让每一次浮点运算、每一次GPU迭代都物尽其用。
如今训练模型的关键在于数据选择——避免在无意义的token上浪费算力。我们的新模型证明了,在极高效率的前提下,也能取得一流的表现。
主持人:那么,使用这些模型的体验如何?几周前你写了一篇文章,讨论了“近似有意识”的AI,你提醒我们要避免这种情况。但在Inflection和微软,你们也强调过让模型具备同理心、拥有让人乐于交流的人格特质。这篇文章是不是意味着方向要调整?
Mustafa Suleyman:不,并不是。首先要认识到,人类所具备的很多能力——不论是智商(IQ)、情商(EQ)、行为能力,还是社交智能(SQ)——本质上都是高度可训练的。模型也会逐渐获得这些能力,这是它们的“默认”发展方向。
模型通过模仿学习,而它们拥有海量的模仿数据可用。作为“雕塑家”,我们正在塑造它们的知识、人格特质、行为能力和社会智能。
关键问题是:哪些能力是我们希望模型拥有的?哪些是我们不希望它们拥有的?我们如何发现潜在的副作用,并以负责任的方式进行迭代?
我写这篇文章的目的,就是提醒大家:盲目追求模型模仿人类的全部能力,存在实质性的风险。我们必须从现在开始认真思考,而不是等到问题真正出现才去补救。这也是我职业生涯的核心目标之一——推动大家去思考两三年后可能会发生什么,而不是忽视它。
我们需要认真面对AI进入社会后会带来的影响。
主持人:虽然你说那一步还没到,可能要几年后,但最近新闻里出现了OpenAI和Character.AI遭遇的诉讼,指控聊天机器人导致自杀。你觉得这是不是你文章中提到的风险?这是你担心的情况吗?
Mustafa Suleyman:我认为未来会出现各种难以预料的突发效应。我们能做的,就是提前思考可能性,并在发现问题时及时公开,认真对待,并推动社区开发者迅速采取行动。
回顾以往的技术发展,很多时候潜在风险都会被回避,导致反应迟缓。我认为这一次我们必须谨慎、主动,同时尽可能快速地推进技术落地,并把好处惠及世界。
主持人:和MAI-1或语音模型交流时,会有特定的感觉吗?你们的目标是什么?是让人感觉像在和一个善良、有同理心的人对话,但又不至于假装是人类吗?你们如何保持这种平衡?
Mustafa Suleyman:MAI-1-Preview可以被看作是“人格原材料”。最终的产品——无论是Copilot还是其他应用——都会被塑造出特定的人格和对话风格。
我预计社区和开源开发者会非常积极地尝试各种不同的人格。我相信未来会出现数以百万计的版本,就像现实中存在数以百万计的个人、品牌和组织一样。
每当人类发明或发现一种新的交流媒介,都会催生大量变体。这一次也不例外。过去两三年,大模型大多只有一种或极少数几种人格。
有些开发者尝试过角色设定或花哨的个性化,但在大型企业产品中依然很少见。我预计未来几年这种情况会发生根本变化,这正是我在博客中呼吁大家注意的。
主持人:听起来在预训练阶段几乎没法做什么,这些工作只能在后训练里处理。
Mustafa Suleyman:是的。预训练阶段基本无法干预。后训练,甚至提示工程,都是非常强大的方法,而且操作并不复杂,很多人都能做到。
因此,我们应该预期未来会出现数百万种不同的人格,各自有不同的背景故事和能力。这会让AI产品与以往的技术和产品截然不同。
Mustafa Suleyman:这是个好问题。归根结底,这一切都是在于建立一种伟大的文化。文化吸引团队,团队打造模型,而团队的价值观最终会体现在我们做出的模型和产品中。
所以我们正在努力建设一种友善、支持性强、可持续的文化,同时专注于技术卓越,尽可能做到最好。
很多人会觉得这非常令人满足,尤其是当我们的产品能够触达数十亿消费者、数十万大小企业的时候。能让技术惠及这么多人,本身就是很令人满足的事。
主持人:说到这里,你们预计什么时候能把这些模型真正应用到微软庞大的产品网络里?
Mustafa Suleyman:很快。我们还需要在核心模型上继续一些迭代,然后当然要做大量的后训练,把它们应用到不同的产品领域,并让它有可能通过Foundry API提供给外部开发者使用。这一切都在推进中,很快就会发生。
主持人:你提到过你们从开源世界学到了很多,但这个模型本身不是开源的。未来会不会开源?还是说这并不是你们的方向?
Mustafa Suleyman:有可能。我们保持开放的态度,毕竟现在也有很多优秀的开源模型。我认为第一步是看看它在我们产品中的表现,收集反馈,进行迭代,然后可能会提供给其他客户使用。我们现在正在考虑所有这些事情。
主持人:刚才还提到了GB200集群。那么MAI-2已经在路上了吗?是不是一年内就能看到?接下来是什么?
Mustafa Suleyman:是的,我们已经在做下一个模型了,规模肯定更大,训练方案上也会有一些新的调整。一切都在进行中,未来几个月、几年会有很多新东西。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
知识库检索准不准,关键看模型选没选对!一份评测指南请收好
2025-08-29
我如何用Prompt工程将大模型调教成风控专家
2025-08-29
度小满金融大模型技术创新与应用探索
2025-08-29
OpenAI发布语音到语音模型gpt-realtime
2025-08-29
行业吹牛和产品落地,谁在决定AI未来?产品经理的三层思考框架
2025-08-29
独家|阿里AI再加码,夸克研发全新AI产品“造点”
2025-08-29
大模型推理上半场收官:单实例优化见顶,迈向低时延×长上下文
2025-08-29
OpenAI发布GPT Realtime:语音大模型正式进入Voice Agent时代,可以直接调用接口和工具进行实时语音对话!
2025-08-21
2025-06-01
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25