微信扫码
添加专属顾问
我要投稿
探索前沿多模态模型,体验火山引擎的一键部署便捷。 核心内容: 1. 阶跃星辰开源的Step系列多模态模型及其特点 2. 火山引擎机器学习平台veMLP的功能与优势 3. Step-Video-T2V模型的参数量、性能评测及一键部署流程
2025年2月18日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。目前,用户可登录火山引擎机器学习平台快速体验。
> 火山引擎机器学习平台简介
火山引擎机器学习平台 veMLP 是面向机器学习应用开发者,提供【开发机】、【自定义任务】、【在线服务】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。
> veMLP一键部署Step-Video-T2V模型
Step-Video-T2V 模型
Step-Video-T2V 模型的参数量达到300亿,可以直接生成204帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。测评结果显示,它是目前全球范围内参数量最大、性能最好的开源视频生成大模型之一。
为了对开源视频生成模型的性能进行全面评测,阶跃发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含128条基于真实用户需求的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等11个内容类别上的质量。
评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均超过市面上既有的效果最佳的开源视频模型。
使用 veMLP 快速入门
第一步:
登录火山引擎机器学习平台,在左侧导览页点击「快速入门」,选择 Step-Video-T2V 卡片
第二步:
点击右上角「在开发机中打开」,使用预制镜像并选择4卡或8卡80G 显存 GPU 计算规格
第三步:
根据「使用指南」进行基准测试
第四步:
使用「在线服务」进行推理部署
> veMLP一键部署 Step-Audio 模型
Step-Audio 模型
Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成不同情绪、方言、语种、歌声及个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景的应用需求。
使用 veMLP 快速入门
第一步:
登录火山引擎机器学习平台,在左侧导览页点击「快速入门」,选择Step-Audio 卡片
第二步:
点击右上角「在开发机中打开」,使用预制镜像并选择4卡或8卡80G 显存 GPU 计算规格
第三步:
根据「使用指南」进行基准测试
第四步:
使用「在线服务」进行推理部署
火山引擎依托字节跳动的技术积累和经验沉淀,通过长期的技术驱动打造出高性价比部署方案,以模型为核心的 AI 云原生技术,将持续助力企业加速 AI 转型。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-28
Om AI第二弹!VLX-Seek来了:3B小模型,细粒度感知反超Gemini
2026-06-22
小参数,大能力 | 星际视觉语言大模型再进化,0.8B轻量版正式发布
2026-06-16
RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践
2026-06-12
PaddleOCR 3.7 正式接入ONNX Runtime,一个参数换后端,轻量部署新选择
2026-06-11
本地部署OCR,可能是AI进单位的第一道门
2026-06-08
正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-04-22
2026-04-01
2026-04-02
2026-04-27
2026-04-21
2026-04-09
2026-03-31
2026-04-15
2026-04-02
2026-04-01
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30