Wan AI 動画ジェネレーター
Wan AIは、通義(Tongyi)ラボによって開発された高度で強力なビジュアル生成モデルです。テキスト、画像、その他の制御信号に基づいて動画を生成できます。Wan 2.1に続き、Wan 2.2シリーズのモデルは現在完全にオープンソース化されています。
Wan Video AI 動画ジェネレーター
Wan 2.1
オープンソース優れた品質と汎用性を備えた高度なオープンソース動画生成モデル。プロのコンテンツ作成に最適です。
テキストから動画への例
Wan 2.1がテキストを見事な動画に変換する方法をご覧ください
フォーマルな夜会服を着たカップルが帰宅途中に激しい雨に遭い、黒い傘をさしている。フラットショットでは、男性は黒いスーツを、女性は白いロングドレスを着ている。彼らは雨の中をゆっくりと歩き、雨は傘から滴り落ちる。カメラは彼らの歩みに合わせてスムーズに動き、雨の中のエレガントな姿勢を映し出している。
主要機能
- ✓高品質な動画生成
- ✓テキストから動画へ&画像から動画へ
- ✓オープンソースでの利用可能性
Wan 2.2
オープンソース品質向上、正確な制御、創造的な可能性を備えた次世代のWan AI動画ジェネレーターを体験してください。
Wan AI 動画生成
主要機能
高度な制御
動画生成の正確な制御
高パフォーマンス
最適化された処理速度
高品質な出力
優れた動画品質
多機能な入力
複数の入力タイプ
Wan 2.5
ネイティブなマルチモーダルアーキテクチャを備えたAI生成ツールであり、以前の世代の「純粋な画像生成」から「エンドツーエンドの視聴覚共同制作」へと進化させる「10秒の視聴覚同期 + 4Kシネマティック品質」におけるコアなブレークスルーを特徴とし、実用的なシナリオ適応と創造的な精度を両立させています。
視聴覚制作
4Kシネマティック品質
10s主要機能
視聴覚同期
多言語にわたる正確なリップシンクを備えたネイティブ同期
4Kシネマティック
豊富な照明を備えた24fpsで10秒間の1080P/4K HD
カメラ制御
複雑なカメラ動作を伴う高度なプロンプト順守
マルチモーダル入力
会話型編集を備えたテキスト/画像から動画への変換
Wan 2.2 Fun Control
最新のWan AIテクノロジーによる強化された制御と創造的な自由。前例のない精度で動画生成を体験してください。
生成例
高度なモーション制御とスタイル転送
Real-time
参照キャラクター
入力参照モーション
入力生成された結果
出力キャラクターのスタイルと参照モーションを組み合わせて、パーソナライズされた動画コンテンツを作成。
高度な機能
- ✓高度な制御
- ✓動画品質の向上
- ✓創造的なオプションの強化
Wan 2.2 Animate
静止画像と参照動画を組み合わせて、高度なモーション制御とスムーズなトランジションを備えたダイナミックなアニメーション動画を生成します。
アニメーション例
画像 + 参照動画からアニメーション動画へ

入力画像
入力参照動画
入力生成された結果
出力画像と参照動画を組み合わせて、スムーズな動きでダイナミックなアニメーション動画を生成。
主要機能
- ✓画像 + 動画から動画アニメーションへ
- ✓参照動画モーション転送
- ✓スムーズなモーション制御
Wan Video LoRA
Wan AI LoRAテクノロジーを使用した専門的な動画適応。最小限のトレーニングでユニークでパーソナライズされた動画スタイルを作成します。
専門機能
- ✓カスタムスタイル適応
- ✓高速なファインチューニング機能
- ✓効率的なリソース使用
- ✓高度なスタイル転送
Wan Image AI 画像ジェネレーター
Qwen テキストから画像へ
AI駆動の画像生成
自然言語理解
中国語または英語の自然な説明から画像を生成し、古典的な詩から現代的な表現までをサポート
高解像度出力
卓越した明瞭さを備えた超詳細なレンダリングで、プロのコンテンツ作成に最適
スタイル制御
シンプルなキーワードによる正確なスタイル制御。アニメからフォトリアリスティックなレンダリングまで

出力例
自然言語の説明から生成
Qwen 画像編集
正確な画像編集と強化
主要機能
スマートテキスト編集
テキスト修正のためのインテリジェントなフォントマッチングとスタイル保持
オブジェクト置換
照明と反射の自動調整によるシームレスなオブジェクト交換
エフェクト生成
シンプルなブラシストロークでプロフェッショナルな視覚効果を追加
描画から画像へのワークフロー
エリアの選択
領域を丸で囲むかマークする
入力の描画
変更をスケッチする
説明
テキスト指示を追加する
Wan AI の概要
SOTAパフォーマンス
Wan AIは、複数の業界ベンチマークで主要なオープンソースモデルおよび商用動画ソリューションを一貫して上回っています。
コンシューマーGPUに最適化
Wan AI Video T2V-1.3Bモデルは8.19 GBのVRAMしか必要とせず、主流のコンシューマーGPUでスムーズな動作を可能にします。RTX 4090(量子化なし)で約4分で5秒間の480P動画を生成し、独自のモデルに匹敵するパフォーマンスを提供します。
マルチモーダル機能
Wan AIは、テキストから動画へ、画像から動画へ、動画編集、テキストから画像へ、動画から音声へのタスクで卓越した結果を提供し、インテリジェントな動画生成を再定義します。
ビジュアルテキストレンダリング
Wan Videoは、動画向けの初のクロスリンガル(多言語)テキスト生成エンジンを導入し、制作対応のタイポグラフィ統合により中国語と英語の両方をサポートしています。
高度なWan-VAEアーキテクチャ
Wan-VAEは、時間的な一貫性を維持しながら、あらゆる期間の1080P動画エンコード/デコードにおいて画期的な効率を達成し、次世代の動画生成システムの中核を成しています。
テキストから画像への生成
Wan AIのネイティブマルチモーダルアーキテクチャは、テキストから画像への生成をサポートしており、ユーザーは多様な創造的なニーズに対応するために、説明から直接高忠実度の画像を生成できます。
高度な画像編集と合成
Wan Imageは、画像内のテキストの変更や複数の画像のシームレスな合成または融合など、高度な編集タスクに優れています。高い被写体の一貫性を維持し、強化されたリアリズムでアジア人の肖像画を生成し、出力が商用グレードの基準を満たしていることを保証します。

Wan AI の機能
Wan Video の機能
複雑なモーション生成
Wan Videoモデルは、大規模な身体の動き、複雑な回転、動的なシーン遷移、スムーズなシネマティックなカメラモーションを伴うリアルな動画の生成に優れています。高度なバージョンでは、マルチキャラクターの相互作用と長尺シーケンスのモーションの一貫性がさらに強化されています。
リアルな物理シミュレーション
Wan AIは、オブジェクトの衝突、重力、流体力学、マテリアルの相互作用など、現実世界の物理を正確にシミュレートします。より高度なモデルは、より正確な環境応答と物理的に一貫したアニメーションを提供します。
シネマティックな視覚品質
Wan AI Videoは、豊かなテクスチャ、自然な照明、被写界深度効果、複数のシネマティックスタイルを備えたフィルムレベルの視覚品質を提供します。プロフェッショナルモデルは、高度な視覚効果、カラーグレーディング、様式化されたシネマティックレンダリングを可能にします。
制御可能な動画編集
Wan AIは、画像または動画の参照を使用した正確な制御可能性を備えたユニバーサルな動画編集フレームワークを提供します。異なるモデルバージョンは、オブジェクトの置換、モーション転送、シーンの再構築、および時間的一貫性編集をサポートしています。
ビジュアルテキストとダイナミックタイポグラフィ
Wan Videoは、テキストプロンプトから動画内に静的および動的なテキストエフェクトを直接生成できます。高度なモデルは、広告およびメディア制作向けのバイリンガル(中国語と英語)のタイポグラフィ、アニメーションキャプション、およびクリエイティブなテキストモーションエフェクトをサポートしています。
Wan Image の機能
高精度画像生成
Wan Imageは、正確な構造、詳細なテクスチャ、およびリアルな照明を備えた高解像度画像を生成します。異なるバージョンは、2K–4K出力、超詳細なリアリズム、および芸術的なイラストレーションスタイルをサポートしています。
高度な画像編集とインペインティング
Wan Imageは、正確なインペインティング、オブジェクトの削除、詳細の強化、およびコンテンツの置換をサポートしています。プロフェッショナルバージョンは、ピクセルレベルの洗練と複雑な領域認識編集を可能にします。
スタイル転送とビジュアル制御
Wan Imageは、リアリズム、アニメ、3D、水彩画、油絵、サイバーパンクなどのマルチスタイルレンダリングを可能にします。高度なモデルは、スタイル強度のきめ細かな制御とクロススタイル融合をサポートしています。
アウトペインティングと画像拡張
Wan Imageは、視覚的な一貫性を維持しながら、元の境界を超えたシームレスな画像拡張を可能にします。ハイエンドモデルは、バナー、ポスター、商用レイアウト向けのワイドフォーマット拡張をサポートしています。
ArtAny AI と Wan AI の製品機能
ArtAny AIは、Wan AIの強力な動画および画像モデルを、統一された使いやすいクリエイティブプラットフォームにシームレスに統合します。数回のクリックで、ユーザーはマーケティング、ソーシャルメディア、広告、プロの制作のために、動画、画像、および音声コンテンツを生成、編集、強化できます。
Wan AI テキストから動画へ
シンプルなテキストプロンプトを、Wan Videoによって駆動されるダイナミックな動き、リアルな物理学、および複数のビジュアルスタイルを備えた高品質なシネマティック動画に変換します。
Wan 画像から動画へ
Wan AIは、Wan Videoテクノロジーを使用して、スムーズなトランジション、カメラの動き、キャラクターアニメーションを備えた鮮やかなモーション動画に静止画像をアニメーション化します。
開始フレームと終了フレームの制御
動画のオープニングおよびクロージングフレームを正確に制御して、視覚的な一貫性、スムーズなトランジション、およびより強力なストーリーテリングを確保します。
Wan AI テキストから画像へ
Wan Imageによって駆動される、超詳細なリアリズム、芸術的なイラストレーションスタイル、および完全なクリエイティブ制御を備えたテキストプロンプトから高解像度画像を生成します。
画像編集と強化
Wan AIは、プロフェッショナルグレードのビジュアルデザインのために、インペインティング、オブジェクトの削除、背景の置換、スタイル転送、アウトペインティングなどの強力なツールで画像を編集します。
動画から音声へ&AI音声
動画やスクリプトから直接、BGM、効果音、AIナレーションを生成し、1つのワークフロー内で同期された視聴覚制作を可能にします。
Wan AI 動画編集と視覚効果
オブジェクトの置換、モーション転送、シネマティックなカラーグレーディング、様式化された視覚効果などのインテリジェントな編集機能で動画を強化します。
Wan AI オープンソースリリース
Alibabaは、このリポジトリを通じて、Wan 2.1およびWan 2.2バージョンのコードと重みのコミュニティオープンソース化を正式に発表しました。Wan AIは、動画生成の境界を押し広げ、開発者および研究コミュニティを強化するために特別に設計された、動画基盤モデルの包括的かつオープンなスイートです。
Wan 2.2 オープンソースモデル
Wan 2.2は、Wan動画基盤モデルへの主要なアップグレードを表し、アーキテクチャ、視覚品質、モーションリアリズム、および高解像度生成効率において重要な改善をもたらします。
主なハイライト:
より高いモデル容量のためのMoEアーキテクチャ
Wan 2.2は、動画拡散にMixture-of-Experts (MoE) 構造を導入し、計算コストを増やすことなく、より大きな実効モデル容量を可能にします。
シネマティックレベルの美的制御
照明、構図、コントラスト、色調でラベル付けされた慎重にキュレーションされた美的データセットにより、Wan 2.2は高度に制御可能なシネマティックスタイルの動画生成を可能にします。
より強力な複雑なモーション生成
Wan 2.1と比較して大幅に大きいデータセット(画像+65.6%、動画+83.2%)でトレーニングされたWan 2.2は、モーションリアリズム、意味的精度、および美的品質においてトップティアのパフォーマンスを達成します。
効率的な720Pハイブリッドテキスト&画像から動画へ (TI2V)
Wan 2.2-VAEを備えたオープンソースの5Bモデルは、720P、24fpsでのテキストから動画へおよび画像から動画への両方をサポートし、RTX 4090のようなコンシューマーGPUで動作し、利用可能な最速のHD動画モデルの1つにランク付けされています。
高度なI2V-A14B画像から動画へのモデル
MoEアーキテクチャで構築されたI2V-A14Bモデルは、より安定した動き、非現実的なカメラの動きの減少、および様式化されたシーンでのより強力なパフォーマンスを備えた480Pおよび720PのI2V生成をサポートします。
Wan2.2 S2V-14B
Wan2.2 Animate-14B
Wan 2.1 オープンソースモデル
Wan 2.1は、Wan AI 動画ジェネレーターの機能を大幅に進歩させる、動画基盤モデルの包括的かつオープンなスイートです。
主なハイライト:
最先端のパフォーマンス (SOTA)
Wan 2.1は、複数のベンチマークでトップティアのパフォーマンスを達成し、ほとんどのオープンソース動画モデルを上回り、主要な商用ソリューションに匹敵します。
コンシューマーGPU互換性
T2V-1.3Bモデルはわずか8.19 GBのVRAMで動作し、RTX 4090などの主流のコンシューマーGPUで高品質な動画生成を可能にします。
フルスタックのマルチタスクサポート
Wan 2.1は、テキストから動画へ、画像から動画へ、動画編集、テキストから画像へ、動画から音声への機能をサポートし、完全なマルチモーダル動画生成パイプラインを提供します。
バイリンガルビジュアルテキスト生成
中国語と英語の両方のオンスクリーンテキストを生成できる初の動画モデルとして、Wan AI 2.1は現実世界の創造的および商業的なユースケースを拡大します。
高パフォーマンス Wan-VAE
Wan-VAEは、時間的な一貫性を保ちながら、任意の長さの1080P動画の効率的なエンコードとデコードを可能にし、動画と画像生成のための堅牢な基盤として機能します。
T2V-14B フラッグシップモデル
T2V-14Bモデルは、オープンモデルとクローズドモデル全体で新しいSOTAベンチマークを設定し、動的なモーション生成に優れ、480Pおよび720Pのバイリンガル動画出力をサポートします。
Wan 2.6が正式リリースされました
AI動画生成における大きな飛躍
15秒の長編動画生成
15秒の長編動画生成により、クリエイター、映画製作者、マーケターの拡張された創造的なストーリーテリングの可能性を解き放ちます。
LoRA ファインチューニングのサポート
軽量なトレーニングでキャラクター、スタイル、モーションの動作をカスタマイズ—パーソナライズされたAI動画作成をこれまでになく迅速かつアクセスしやすくします。
キャラクターの一貫性の強化
キャラクターの一貫性が大幅に強化され、より長い動画シーケンス全体で安定したアイデンティティ、顔の特徴、モーションの継続性を保証します。
ネイティブAI音楽生成
Wan AI音楽生成がネイティブに統合され、単一のクリエイティブワークフロー内でビジュアルとサウンドのシームレスな同期を可能にします。
Wan AI よくある質問
Wan AIによるWan Videoとは何ですか、どのように機能しますか?
Wan Videoは、Wan AIフレームワークの下で開発された最先端の動画生成システムです。変分オートエンコーダ(VAE)や拡散トランスフォーマー(DiT)などの高度なテクノロジーを使用して、テキストまたは画像の入力を高品質の動画に変換し、リアルな動き、シネマティックなビジュアル、正確な物理的動作を提供します。
Wan AIを使用するには技術的な専門知識が必要ですか?
技術的なバックグラウンドは必要ありません。Wan AIは、初心者からプロまで、コーディングや複雑な設定なしで簡単に高品質な動画を生成できる使いやすいインターフェースで設計されています。
Wan Videoでどのような種類の動画を作成できますか?
Wan Videoは、キャラクターアニメーション、ダンス、スポーツ、シネマティックなストーリーテリング、教育コンテンツ、マーケティング動画、歴史的な修復、様式化されたクリエイティブなシーンなど、幅広い動画コンテンツをサポートしています。
Wan AIによる動画生成にはどのくらいの時間がかかりますか?
動画の生成時間は、解像度、期間、およびモーションの複雑さによって異なります。Wan AIのより高性能なバージョンは、時間に敏感な制作ニーズに対応するためにより高速な処理速度を提供します。
Wan AIで動画出力をカスタマイズできますか?
はい。Wan Videoは、解像度、フレームレート、モーション強度、カメラの動き、ビジュアルスタイルなどを柔軟に制御でき、最終的な結果に対して完全なクリエイティブな制御を提供します。
Wan Videoはどのような入力形式をサポートしていますか?
Wan Videoは現在、テキストから動画へおよび画像から動画への生成をサポートしています。ユーザーは、シーンの構成、動き、およびビジュアルスタイルをガイドするために、詳細なテキストプロンプトまたは参照画像を提供できます。
Wan AIは多言語動画生成をサポートしていますか?
はい。Wan AIは、英語と中国語を含む多言語テキストプロンプトをサポートしています。動画コンテンツとオンスクリーンビジュアルテキストは、選択されたモデルに応じて異なる言語に基づいて生成できます。
Wan AIによって生成される動画の長さに制限はありますか?
動画の長さの制限は、プラットフォームのプランとモデルのバージョンによって異なります。エントリーレベルのアクセスでは期間制限が短い場合がありますが、高度なプランではより長く、より複雑な動画生成がサポートされます。
Wan Videoはどのようにして高品質な出力を保証しますか?
Wan Videoは、高度なVAEおよびDiTアーキテクチャ、大規模なトレーニングデータセット、最適化されたモーションモデリングを活用して、シネマティックなビジュアル、スムーズなトランジション、リアルな物理、および安定した時間的一貫性を保証します。
Wan Videoは複数のキャラクターがいる複雑なシーンをどのように処理しますか?
Wan Videoは、入力プロンプトからキャラクターの関係、空間的位置、およびモーションの相互作用を分析し、自然な動き、リアルな相互作用、および一貫したマルチキャラクターの動作を保証します。
Wan AIから現在利用可能なオープンソースモデルは何ですか?
Wan AIは、高解像度のテキストから動画へおよび画像から動画へのモデル、ならびに安定したモーション生成と様式化された動画合成のための特殊なMoEベースのアーキテクチャを含む複数のモデルをオープンソース化しました。
Alibaba Cloudは、Wan AIに関連して他にどのようなオープンソースAIモデルをリリースしましたか?
Alibaba Cloudは、Qwen大規模言語モデル、マルチモーダルビジョン・言語モデル、画像生成モデル、音声生成システムなど、広範なオープンソースAIモデルのエコシステムをリリースしており、Wan AIと並んで完全なマルチモーダルAIインフラストラクチャを形成しています。
Wan AIによるWan Imageとは何ですか、何に使用できますか?
Wan Imageは、Wan AIフレームワークの下にある画像生成および編集システムです。広告、eコマース、ブランディング、ゲーム、デジタルアート制作におけるテキストから画像への作成、高解像度ビジュアルレンダリング、商用グレードのデザイン出力、およびクリエイティブなイラストレーションをサポートしています。
Wan Imageはプロの画像編集とスタイル制御をサポートしていますか?
はい。Wan Imageは、インペインティング、アウトペインティング、オブジェクトの削除、背景の置換、超解像度強化、マルチスタイル転送などの高度な画像編集機能をサポートしています。ユーザーは、プロのクリエイティブワークフローのために、リアリズム、芸術的なスタイル、照明、構図を正確に制御できます。
