阿里开源全能视频大模型 Wan2.1-VACE：单模型支持六大能力，1.3B 版本可本地运行 - GPT中文站: 免费ChatGPT中文版

2025 年 5 月 14 日，阿里巴巴正式开源其新一代视频生成与编辑大模型 —— 通义万相 Wan2.1-VACE。该模型以其全能、模块化的设计，成为目前业内功能最全的视频多模态大模型之一，为开发者与内容创作者带来了前所未有的灵活性与创作空间。

Wan2.1-VACE 实现了单一模型同时支持以下六大基础能力，突破了传统视频模型在功能维度上的局限：

开发者无需在多个任务间切换模型，也无需训练多个专用模型，一个 Wan2.1-VACE 即可通用完成多种复杂任务。

本次开源涵盖了两个版本：

这一策略使 Wan2.1-VACE 既能满足研究人员的实验需求，也方便中小型开发团队快速部署落地应用。

Wan2.1-VACE 核心创新之一是提出了视频条件单元（VCU），它首次统一了文生视频、参考图生视频、视频生视频和局部区域视频生成四大任务的输入形态。

VCU 模块支持多模态输入，包括：

在输出表现上，Wan2.1-VACE 能够精准控制 角色一致性、场景布局、动作幅度与运动路径，大幅提升视频生成的内容质量与稳定性。

模型支持任意基础能力的自由组合，例如：

这一灵活组合性使得 Wan2.1-VACE 成为真正意义上的视频“万能工具箱”。

目前，Wan2.1-VACE 已在多平台同步开源，开发者可立即下载体验：

此外，Wan2.1-VACE 也将陆续上线至通义万相官网与 阿里云百炼平台，供企业与开发者商业化接入。

如果你想在中文环境中无障碍调用 GPT-4o、Gemini、Claude 等多模态大模型，用于视频脚本生成、AI 配音、图像生成等任务，推荐访问 GPT 中文站。该平台支持多模型切换、高质量中文对话、图文混合生成，是内容创作者与研发人员的理想入口。