阿里推出開源電影級視頻模型 Wan2.2

阿里巴巴宣布正式開源業界首個採用混合專家(Mixture-of-Experts, MoE)架構的視頻生成模型 Wan2.2,為全球開發者與創作者提供更高效的工具,實現一鍵生成具備電影質感的短片,並在光影、構圖、鏡頭等多方面進行精準控制。

Wan2.2 系列涵蓋三大模型:文生視頻模型 Wan2.2-T2V-A14B、圖生視頻模型 Wan2.2-I2V-A14B,以及統一視頻生成模型 Wan2.2-TI2V-5B。前兩者基於 MoE 架構,通過雙模型設計解決長序列運算所需的大量計算資源問題。其中,高噪專家模型負責場景佈局,低噪專家模型專注細節紋理,雖然總參數規模達 270 億,但每步僅激活 140 億,有效降低約一半的計算消耗。

在生成效果方面,Wan2.2 經過大量美學數據訓練,可模擬電影級光影效果,並能靈活控制色調、鏡頭角度、構圖及焦距等關鍵元素。阿里巴巴表示,模型在處理複雜動作方面表現顯著提升,包括生動的面部表情、流暢的肢體動作和更細膩的動態場景,同時能遵循物理規律,令畫面更趨真實。與前一代 Wan2.1 相比,新版本的訓練數據集規模大幅擴充,其中圖像數據量增長 65.6%,視頻數據增長 83.2%,進一步提升模型在生成複雜場景及多樣化藝術風格上的能力。

另一大亮點是全新推出的 Wan2.2-TI2V-5B。該模型採用高壓縮率的 3D VAE 架構,具備 4x16x16 的時空壓縮比,總信息壓縮率達 64,可在消費級 GPU 上於數分鐘內生成 5 秒 720P 視頻。此舉不僅降低了門檻,也為中小型開發者和內容創作者提供了可擴展且高效的解決方案。

阿里巴巴指出,Wan2.2 的設計理念源自電影美學,將光影、明暗、構圖和色調等維度系統化分類,讓模型能夠準確解讀並呈現用戶輸入的提示詞,從而實現細緻的美學調整。這使得使用者在創作過程中能更自由地探索不同的敘事方式與視覺效果。

此次發布也延續了阿里巴巴在開源 AI 生態中的積極布局。Wan2.2 系列現已於 Hugging Face、GitHub 及阿里雲 ModelScope 等平台同步開放下載。早在 2025 年 2 月,阿里巴巴已開源四款 Wan2.1 模型,並於同年 5 月發布 Wan2.1-VACE 多合一視頻編輯模型。截至目前,相關模型在 Hugging Face 與 ModelScope 的總下載量已突破 540 萬次,顯示出市場對其生成式視頻技術的高度需求。

其他人也看