阿里巴巴 Wan AI 的 Wan 2.1 (Wanx 2.1)
Wan AI 是由 Tongyi Lab 開發的先進且強大的視覺生成模型。它可以基於文本、圖像和其他控制信號生成視頻。Wan 2.1 系列模型現已完全開源。
Wan AI 概述
SOTA 性能
Wan 2.1 在多個基準測試中持續優於現有的開源模型和最先進的商業解決方案。
支持消費級顯卡
T2V-1.3B 模型僅需要 8.19 GB 顯存,幾乎兼容所有消費級顯卡。它可以在 RTX 4090 上約 4 分鐘內生成 5 秒鐘的 480P 視頻(不使用量化等優化技術)。其性能甚至可以與一些閉源模型相媲美。
多任務處理
Wan 2.1 在文本轉視頻、圖像轉視頻、視頻編輯、文本轉圖像和視頻轉音頻等方面表現出色,推動了視頻生成領域的發展。
視覺文本生成
Wan 2.1 是第一個能夠生成中文和英文文本的視頻模型,具有強大的文本生成功能,提升了其實際應用價值。
強大的 Wan AI 視頻 VAE
Wan-VAE 提供卓越的效率和性能,可以編碼和解碼任意長度的 1080P 視頻,同時保留時序信息,為視頻和圖像生成提供理想的基礎。
Wan AI 的功能特點
Wan AI 2.1 的複雜動作處理
在生成包含大量身體動作、複雜旋轉、動態場景轉換和流暢攝像機運動的真實視頻方面表現出色。
Wan AI 2.1 的物理模擬
生成能準確模擬真實世界物理特性和物體互動的視頻。
Wan AI 2.1 的電影級品質
提供具有豐富紋理和各種風格化效果的電影級視覺效果。
Wan AI 2.1 的可控編輯
具有通用編輯模型,可使用圖像或視頻參考進行精確編輯。
Wan AI 2.1 的視覺文本生成
直接從文本提示中創建視頻中的文本和動態文本效果。
產品功能
通過我們的產品,您可以通過用戶友好的體驗無縫使用我們的模型,訪問富有啟發性的視頻內容。
文本轉視頻
圖像轉視頻
起始和結束幀
Wan AI 2.1 Open Source
In this repo, we release the code and weights for the Wan 2.1, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation.
The I2V-14B model outperforms leading closed-source models as well as all existing open-source models, achieving SOTA performance. It is capable of generating videos that demonstrate complex visual scenes and motion patterns based on input text and images, including both 480P and 720P resolution models.
Wan2.1-T2V-14B
480-720PThe T2V-14B model sets a new SOTA performance among both open-source and closed-source models, showcasing its ability to generate high-quality visuals with substantial motion dynamics. It is also the only video model capable of producing both Chinese and English text and supports video generation at both 480P and 720P resolutions.
Wan2.1-T2V-1.3B
480PThe T2V-1.3B model supports video generation on almost all consumer-grade GPUs, requiring only 8.19 GB of BRAM to produce a 5-second 480P video, with an output time of just 4 minutes on an RTX 4090 GPU. Through pre-training and distillation processes, it surpasses larger open-source models and achieves performance even comparable to some advanced closed-source models.
Wan2.1-FLF2V-14B-720P
Wan 2.1 首尾幀轉視頻(FLF2V)是一種基於 AI 的視頻生成技術,可以在給定的起始和結束幀之間合成中間幀以生成流暢的視頻。它使用了一個 140 億參數的模型,支持多 GPU 加速推理,並提供預訓練檢查點和 Gradio 演示用於交互測試。應用包括視頻修復、動畫製作等。
常見問題
什麼是 Wan AI 的 Wan 2.2,它是如何工作的?
Wan AI 的 Wan 2.2 是阿里巴巴雲的最先進視頻生成模型,可以將文本描述轉換為令人驚嘆的高質量視頻。它利用變分自編碼器(VAE)和擴散變換器(DiT)等先進技術,確保真實的視覺效果、流暢的轉場和準確的物理效果,帶來真正身臨其境的體驗。
使用 Wan AI 的 Wan 2.2 需要技術專業知識嗎?
Wan AI 的 Wan 2.2 設計注重簡單易用。其直觀的界面使任何人都能輕鬆創建專業質量的視頻,即使沒有高級技術技能。無論您是初學者還是專業人士,都會發現平台易於導航和使用。
使用 Wan AI 的 Wan 2.2 可以創建什麼類型的視頻?
Wan AI 的 Wan 2.2 功能多樣,能夠生成各種視頻內容。從舞蹈和運動等動態場景到教育教程和歷史視頻修復,它使您能夠將創意願景變為現實。
生成視頻需要多長時間?
視頻生成時間取決於項目的複雜度和長度。為了更快的結果,專業版提供加速處理速度,非常適合時間緊迫的任務。
我可以自定義視頻輸出嗎?
當然可以!Wan AI 的 Wan 2.2 提供廣泛的自定義選項,允許您調整解析度、幀率、運動複雜度等。根據您的具體需求和偏好定制視頻。
Wan AI 的 Wan 2.2 AI 支持哪些輸入格式來生成視頻?
Wan AI 的 Wan 2.2 AI 主要支持文本描述作為視頻生成的輸入。您可以提供詳細的文本提示來描述場景、動作和所需的視覺效果。此外,在未來的更新中可能會支持圖像輸入以增強上下文。
Wan AI 的 Wan 2.2 AI 能生成多語言視頻嗎?
是的,Wan AI 的 Wan 2.2 AI 支持多語言文本輸入,允許您根據各種語言的描述生成視頻。但是,輸出質量可能會因語言和描述的複雜度而有所不同。
Wan AI 的 Wan 2.2 生成的視頻長度有限制嗎?
生成視頻的長度取決於訂閱計劃。免費版本可能對視頻時長有限制,而專業版支持更長和更複雜的視頻生成。具體限制可以在平台文檔中找到。
Wan AI 的 Wan 2.2 如何確保生成視頻的質量?
Wan AI 的 Wan 2.2 AI 利用變分自編碼器(VAE)和擴散變換器(DiT)等先進技術來確保高質量輸出。這些技術實現了真實的視覺效果、流暢的轉場和準確的物理模擬。
Wan AI 的 Wan 2.2 如何處理包含多個角色的複雜場景?
Wan AI 的 Wan 2.2 通過分析文本輸入中描述的關係和互動來處理包含多個角色的複雜場景。它使用先進算法來確保角色之間的真實定位、運動和互動。