阿里开源全能视频大模型 Wan2.1-VACE:单模型支持六大能力,1.3B 版本可本地运行

2025 年 5 月 14 日,阿里巴巴正式开源其新一代视频生成与编辑大模型 —— 通义万相 Wan2.1-VACE。该模型以其全能、模块化的设计,成为目前业内功能最全的视频多模态大模型之一,为开发者与内容创作者带来了前所未有的灵活性与创作空间。

六大核心能力集于一体

Wan2.1-VACE 实现了单一模型同时支持以下六大基础能力,突破了传统视频模型在功能维度上的局限:

  1. 文本生成视频(Text-to-Video)
  2. 图像参考生成视频(Image-to-Video)
  3. 视频重绘(Video Repainting)
  4. 视频局部编辑(Local Editing)
  5. 视频背景延展(Background Outpainting)
  6. 视频时长延展(Temporal Extension)

开发者无需在多个任务间切换模型,也无需训练多个专用模型,一个 Wan2.1-VACE 即可通用完成多种复杂任务

两种模型规模:消费级 GPU 也能运行

本次开源涵盖了两个版本:

  • 1.3B 参数版:可在消费级显卡(如 RTX 3090、4090)上运行;
  • 14B 参数版:适用于服务器与云端大规模生成。

这一策略使 Wan2.1-VACE 既能满足研究人员的实验需求,也方便中小型开发团队快速部署落地应用。

VCU 创新机制:统一多种视频生成任务

Wan2.1-VACE 核心创新之一是提出了视频条件单元(VCU),它首次统一了文生视频、参考图生视频、视频生视频和局部区域视频生成四大任务的输入形态。

VCU 模块支持多模态输入,包括:

  • 文本(Text)
  • 图像(Image)
  • 视频(Video)
  • 区域遮罩(Mask)
  • 动作/控制信号(Control signals)

在输出表现上,Wan2.1-VACE 能够精准控制 角色一致性、场景布局、动作幅度与运动路径,大幅提升视频生成的内容质量与稳定性。

模块化组合:无需训练新模型即可完成复杂视频任务

模型支持任意基础能力的自由组合,例如:

  • 先用文本生成初始视频,再通过参考图进行风格迁移;
  • 结合遮罩与控制信号,实现局部换装或特效叠加;
  • 基于已有素材,扩展背景与时长,重构视频节奏与内容叙事。

这一灵活组合性使得 Wan2.1-VACE 成为真正意义上的视频“万能工具箱”。

开源地址与上线计划

目前,Wan2.1-VACE 已在多平台同步开源,开发者可立即下载体验:

此外,Wan2.1-VACE 也将陆续上线至通义万相官网与 阿里云百炼平台,供企业与开发者商业化接入。


延伸阅读:中文创作者的 AI 视频工具合集

如果你想在中文环境中无障碍调用 GPT-4o、Gemini、Claude 等多模态大模型,用于视频脚本生成、AI 配音、图像生成等任务,推荐访问 GPT 中文站。该平台支持多模型切换、高质量中文对话、图文混合生成,是内容创作者与研发人员的理想入口。