2026年5月21日 周四晚上19:30,报名腾讯会议了解“从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

阿里云推出「千问.Skills」,一个 Agent 就能调度百炼多模态能力

发布日期:2026-05-21 09:11:41 浏览次数: 1543
作者:虾蛄AI

微信搜一搜,关注“虾蛄AI”

推荐语

云服务正从面向人类转向为Agent重构,阿里云推出千问.Skills,让AI智能体能直接调度百炼多模态能力。

核心内容:
1. 云计算行业从价格战转向集体涨价背后的供需变化
2. 阿里云推出首个面向Agent的产品官网与技能包
3. 云厂商竞争逻辑从拼算力成本转向提供稳定AI应用方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片
图片


云服务开始面向Agent重写。

2025年,阿里云率先打响价格战,腾讯云、华为云、京东云纷纷跟上,最高降幅达60%。

但不到一年,这场价格战的走向彻底反转。

2026年3月,谷歌云、亚马逊云、腾讯云、阿里云、百度智能云在10天内相继宣布涨价,核心AI算力与存储服务价格普遍上调30%至50%,部分产品涨幅高达400%。

这是中国云计算行业多年来首次出现集体涨价。

O1CN01RR4F1r1fg5GJUK1z5_--6000000004035-0-tps-1920-850.jpg

涨价的直接原因,是Token需求的爆炸式增长。国家数据局数据显示,2026年3月,中国日均Token调用量已突破140万亿,而这一数字在2024年初仅为1000亿,两年间增长超千倍。

价格的下降速度,始终追不上需求扩张的速度。供需天平一旦倾斜,涨价便成了既定结果。

对中小AI企业和刚入局的创业者来说,这次涨价的冲击更为直接。

大企业可以靠采购规模议价,锁定长期协议价。小团队没有这个筹码,同样调用量的成本可能直接翻倍,原本的商业模型需要推倒重算。

不过,涨价只是这场行业重构的表象。更深层的变化是,云厂商的竞争逻辑正在改变。过去近二十年,国内云计算市场的默认策略是"低价走量、先圈地再盈利",拼的是谁的单位算力成本更低。

在,随着智能体应用的快速普及,企业客户的核心需求已从采购裸算力,转向获取能让AI应用稳定运行、完成业务任务的整体方案。

价格只是合作前提,稳定的服务体验才是持续付费的关键。

在这个背景下,阿里云的市场份额表现尤为突出。根据数据显示,2025年第一、二、三季度,阿里云在中国云市场的份额依次为33%、34%和36%,连续三个季度保持上升。

与此同时,火山引擎在AI云细分赛道攻势迅猛,根据IDC数据,2025年上半年在中国公有云大模型调用量中,火山引擎以接近50%的市场份额稳居第一。

两家的竞争,正在成为这轮排位赛中最受关注的对抗。

就在行业格局加速重构的过程中,阿里云在2026年做了一件此前从未做过的事,在官网之外,单独推出了一个新产品官网。

官网地址:www.qianwenai.com

这是阿里云成立17年来的首次。

打开这个页面,没有产品列表,没有控制台入口,也没有传统意义上的导航结构。首页只有一行字:

安装 Skills   npx skills add QianWen-AI/qianwen-ai

这是一条给Agent读的指令,不是给人看的。

这个选择背后有一个判断,当云的主要消费者从人变成Agent,原来围绕人类设计的界面、流程和交互逻辑,都需要被重写。

人需要登录控制台、选产品、配参数、调API。Agent不看网页,不点按钮,它需要的是结构化的能力描述和可以直接调用的协议。

千问云做的事情,就是把阿里云的模型服务能力,重新封装成Agent可以直接理解和调用的形式。

它有着一套给Agent使用的技能包,官方称之为QianWen AI Skills

GitHub地址:https://github.com/QianWen-AI/qianwen-ai

阿里云百炼旗下的模型数量很多,文本、图像、视频、语音、视觉理解,每种类型下又有多个不同的模型,参数各异,接口不同,适用场景也不一样。

对于开发者来说,想找到一个合适的模型,需要翻阅大量文档。对于Agent来说,这套体系完全不可用,因为Agent无法自行判断该调哪个模型、用什么参数。

而千问云解决的就是这个问题。

它把这些能力分成9个Skills模块,分别是:文本生成与对话、图像视频理解、图像生成、视频生成、文字转语音、模型选择、鉴权管理、用量查询,以及更新检查。

每个模块内部已经预设好了适配逻辑:用哪个模型、传什么参数、怎么处理报错、结果怎么返回。

用户只需要告诉Agent自己想做什么,Agent会自动判断该触发哪个Skills,选择对应的模型,调用对应的脚本,完成任务。

模型的选择机制分三层:

第一层是每个Skills脚本自带默认模型兜底,常见任务开箱即用,例如文生图默认走wan2.6-t2i,视频生成默认走wan2.6-t2v,图生视频默认走wan2.6-i2v-flash,文字转语音默认走qwen3-tts-flash,图片理解默认走qwen3.6-plus,OCR默认走qwen-vl-ocr,视觉推理默认走qvq-max,视频编辑默认走wan2.7-videoedit。

第二层是模型选择器,当Agent判断需要在质量、成本、速度之间权衡,或者用户对模型有特定要求时,可以调用qianwen-model-selector来获取推荐,这一步不是每次执行都强制触发,而是按需调用的选择层。

第三层是用户显式指定,用户也可以直接告诉Agent用哪个模型,跳过前两层的判断。这套机制让常规任务可以直接跑,复杂需求则由Agent按实际情况灵活切换。

举一个具体的例子:如果你告诉Agent"把这5张产品图每张生成一段5秒的展示短视频",Agent会先调用图像理解模块确认图片,再调用视频生成模块,选择图生视频的模式,提交异步任务,轮询结果,最后把视频文件交给你。

这个链路可以在一个标准API Key下完成,中间不需要人介入。

如果需求更复杂,比如"先生成一张图,再把这张图做成视频,最后配上语音",Agent可以把图像生成、视频生成、语音合成三个Skills串联起来,上一个模块的输出直接作为下一个模块的输入。

目前,该Skills支持的是按量计费的标准API Key,也就是以`sk-`开头的那种。

当然,还有另一种计费方式Token Plan,使用专属Key(以`sk-sp-`开头),面向团队/高频率使用者订阅,按Credits计费,适合每天使用AI编程工具的团队用户。这两种Key在设计上有明确分工,不能混用。

Token Plan的Key无法用于这些Skills脚本的大多数调用,视频生成、语音合成、专用视觉模型这些能力也不在Token Plan的覆盖范围内。

在费用结构上,不同类型的模型计费方式各不相同:文本模型按百万Token计费,图像生成按张计费,视频生成按输出时长(秒)计费,语音合成按每万个输入字符计费。

新用户可以获得每个模型100万免费Token,有效期90天。

如果是高频调用场景,千问云文档里提到了两种降低成本的方式:Batch API可以享受五折优惠,上下文缓存可以复用长Prompt,减少重复的Token消耗。两种优惠不能同时叠加使用于同一请求。

千万云目前处于第一版的状态,虽然仅用了一行代码占据官网的顶部位置,但这是一个明确的信号,它认为未来云服务的主要使用者会是Agent。

千问云是这个判断的第一个具体产品。至于这个方向会不会成立,还需要时间来验证。

图片

图片
图片

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询