
実は無料で映画のような動画ができるんです。
2024年末にGoogleが発表した「Whisk」は、無料プランでも動画を作成できるツールです。
AIを使ったコンテンツ制作に関心のあるみなさんなら、プロンプトの難しさを経験したことがあるはずです。
「思い描いたイメージと違う」「何度も生成し直す」といった悩みは、AI画像生成ツールを使う上でよくあることです。
Google Whiskは、こうした問題に対して異なるアプローチを採用しています。
今回は、このGoogle Whiskの特徴と、実際にどのように動画を作成できるのかを解説していきます。
1. Google Whiskとは
Google Whiskは、Googleが開発したAI画像・動画生成ツールです。
Google Labsプロジェクトの一環として提供されており、特徴は「画像を使って画像を作る」という直感的なアプローチです。
従来の画像生成AIでは、テキストプロンプトで詳細に指示を出す必要がありました。
「青い目の若い女性が、夕暮れのビーチで微笑んでいる、シネマティックライティング、8K解像度…」といった具合です。
しかし、Whiskでは参考となる画像をアップロードするだけで、そのスタイルや要素を理解し、新しい画像を生成してくれます。
技術的には、WhiskはGoogleの画像生成モデル「Imagen 3」と、画像理解能力を持つ「Gemini」を組み合わせて動作しています。
ユーザーがアップロードした画像をGeminiが分析し、その特徴を詳細なプロンプトに変換。
そのプロンプトをImagen 3が受け取って新しい画像を生成する仕組みです。
この仕組みにより、複雑なプロンプトを書かずに、ビジュアルベースでの創作が可能になりました。

後述しますが、3つの画像を参照させることができます
利用制限について理解しておこう
Google Whiskを活用する上で、まず理解しておくべきは利用制限です。
現時点(2025年10月)での情報として、以下のような制限があります。
無料プランの場合:
- 画像生成:1日あたり約100枚まで
- 動画生成(アニメーション化):月5本まで
Google One AI Premiumプラン(有料)の場合:
- AIクレジット制を採用
- Google AI Proプラン:毎月1,000クレジット(動画生成約50回分)
- Google AI Ultraプラン:毎月25,000クレジット(動画生成約1,250回分)
- 動画生成1回につき20クレジットを消費
注意点として、これらの制限は今後変更される可能性があります。
Googleは利用状況やサーバー負荷に応じて調整を行うため、最新情報は公式サイトで確認することをお勧めします。
無料プランでも月5本の動画が作れるというのは、試作や学習目的であれば十分な量です。
まずは無料プランで使い方を習得し、本格的な制作が必要になったら有料プランへの移行を検討する、というステップが賢明でしょう。

無料はプランは月100クレジット加算
2. 画像を生成する:Whiskの3要素アプローチ
Google Whiskの特徴は、画像生成を「主題(Subject)」「シーン(Scene)」「スタイル(Style)」という3つの要素に分けて考える点です。
この設計により、テキストプロンプトベースのツールと比較して、狙った画像を作りやすくなっています。
3要素の役割
主題(Subject): 画像の中心となる人物やオブジェクトを定義します。
例えば、特定のキャラクターデザインや、ある角度から見た製品などです。
参考画像をアップロードすることで、その人物の特徴(顔立ち、髪型、服装など)を保持したまま、別のシーンに配置することができます。
シーン(Scene): 背景や環境設定を指定します。
都会の夜景、森の中、宇宙空間など、主題を配置する舞台を決定します。
シーンの参考画像をアップロードすれば、その雰囲気や構図を維持しながら、主題を自然に溶け込ませることができます。
スタイル(Style): 全体の表現方法を決定します。
写実的、アニメ風、水彩画風、レトロな映画風など、作品の視覚的な質感やトーンを制御します。
好みのアーティストの作品や、目指したいビジュアルスタイルの画像をアップロードすることで、その特徴を新しい作品に反映させられます。
なぜ3要素に分けると作りやすいのか
従来のテキストプロンプト方式では、これら全ての要素を1つの文章で説明する必要がありました。
「サイバーパンク風の街並み(スタイル+シーン)で、赤い髪の女性戦士(主題)が、夕日を背景に(シーン)、アニメ調で(スタイル)…」といった具合です。
この方式の問題点は以下の通りです:
- 要素間の干渉:複数の要素を1つのプロンプトに詰め込むと、AIがどの部分を優先すべきか混乱し、意図しない結果になることがあります。
- 調整の難しさ:生成結果が気に入らない場合、どの要素が問題なのか特定しづらく、プロンプト全体を書き直す必要があります。
- 言語化の壁:視覚的なイメージを言葉で正確に伝えるのは非常に困難です。
- 「ちょっとレトロな感じ」を言葉で説明するより、参考画像を見せた方が遥かに明確です。
Whiskの3要素アプローチは、これらの問題を解決します。
各要素を独立してコントロールできるため、例えば「キャラクターはそのままで、背景だけ変えたい」「スタイルだけ別のものに変更したい」といった調整が簡単に行えます。
実践例:段階的なアプローチ
実際の制作フローを想像してみましょう。
ステップ1:主題を決める まず、登場させたいキャラクターや物体の画像を用意します。
既存の写真やイラストを使っても良いですし、他のAIツールで生成したものでも構いません。
人物プロンプトと生成した画像
photorealistic portrait of a mysterious figure in a dark, oversized hoodie, face obscured by deep shadows from the hood, high contrast lighting, urban background, anonymous look
(日本語訳:暗くオーバーサイズのフードをかぶったミステリアスな人物の、写真のようなポートレート。顔はフードの深い影で覆われ、ハイコントラストな照明、都市の背景、匿名の見た目。)

ステップ2:シーンを選ぶ 次に、そのキャラクターを配置したい環境の参考画像を選びます。
風景写真、映画のスクリーンショット、コンセプトアートなど、目指したい雰囲気の画像を用意します。
背景プロンプトと生成した画像
photorealistic cityscape at night, bustling street with vibrant neon signs and glowing LED billboards, rain-slicked pavement reflecting colorful lights, cyberpunk aesthetic, blurred background of traffic
(日本語訳:夜の都市景観の写真。賑やかな通りに鮮やかなネオンサインと光るLEDの広告板があり、雨で濡れた舗道にカラフルな光が反射している。サイバーパンク的な美学、交通のぼやけた背景。)

ステップ3:スタイルを適用 最後に、全体の表現スタイルを決める参考画像を選びます。好きなアーティストの作品、特定の映画の色調、アニメの画風などです。
dark and moody film noir style photograph, deep shadows and striking highlights, heavy rain, lone figure walking in distance, cinematic grain, cool color grading of blues and purples
(日本語訳:暗く不穏なフィルムノワール調の写真。深い影と印象的なハイライト、激しい雨、遠くに歩く孤独な人物、映画のような粒子感、青と紫のクールな色調補正。)

この3つの要素をWhiskに入力すると、AIがそれぞれの特徴を分析・統合し、1枚の画像を生成してくれます。もし結果が気に入らなければ、問題のある要素だけを変更して再生成できます。これにより、試行錯誤の効率が上がります。
3要素を組み合わせて画像生成する際に使ったプロンプト
ultra realistic photograph of a mysterious young man, hood pulled up, his face partially visible through the deep shadows, walking through a vibrant neon-lit cyberpunk city street at night, atmospheric and dramatic lighting, rain-slicked pavement reflecting colorful lights, high contrast, sharp focus, cinematic style.
(日本語訳:暗くオーバーサイズのフードをかぶったミステリアスな若い男性が、深い影から顔の一部をのぞかせながら、ネオンが鮮やかに輝くサイバーパンクの夜の街を歩いている、超リアルな写真。雰囲気のあるドラマチックな照明、カラフルな光を反射する雨に濡れた舗道、ハイコントラスト、シャープなフォーカス、映画のようなスタイル。)

また、プロンプトを完全に書かなくても、画像だけで大まかな方向性を示せるため、言語化が苦手な方や、ビジュアルで考えるタイプのクリエイターにとって使いやすいツールとなっています。
さらに、この段階で納得のいく画像を作り込むことで、次の動画化のステップがスムーズになります。
基礎がしっかりしていれば、その上に細かい演出を加えていくだけで済むからです。
3. 気に入った画像をアニメーション化
画像生成で満足のいく1枚が完成したら、次はいよいよ動画化のステップです。
これこそがWhiskの特徴とも言える機能で、静止画に命を吹き込むプロセスです。
2ステップアプローチの強み
Whiskが採用している「画像生成→動画化」という2ステップアプローチには、大きなメリットがあります。
それは段階的にクオリティをコントロールできるという点です。
第1段階:画像生成でビジュアルを確定 前述の3要素(主題・シーン・スタイル)を使って、まず静止画として完璧なビジュアルを作り上げます。
この段階で、構図、キャラクターの外見、背景の詳細、色調など、あらゆる視覚要素を思い通りに調整できます。
一度画像として確定してしまえば、それが動画の「基準フレーム」となります。
動きが加わっても、このビジュアルの質は維持されるため、安心して次のステップに進めます。
第2段階:動画プロンプトで動きを指定 確定した画像をベースに、今度は動きやカメラワークに関する詳細な指示を追加します。
ここでは以下のような要素を制御できます:
- 動作の種類:歩く、走る、振り向く、手を振るなど
- カメラワーク:ズームイン、パン、ティルト、回転など
- 動きの速度:ゆっくりとした動き、素早いアクションなど
- 感情表現:微笑む、驚く、悲しむなどの表情変化
- 環境の変化:風で髪がなびく、雨が降る、太陽が動くなど
すでにビジュアルが確定しているため、動画プロンプトでは純粋に「どう動かすか」だけに集中できます。
これにより、複雑な動きや細かい演出も実現しやすくなります。
従来の動画生成との違い
テキストから直接動画を生成する従来のAIツールでは、「どんな絵で、どう動くか」を同時に指定する必要がありました。
例えば:
「サイバーパンク風の街で、赤い髪の女性戦士が、剣を抜きながらカメラに向かって歩いてくる、ネオンが点滅する夜景、映画のような照明、スローモーション…」
このような長大なプロンプトでも、結果は不安定になりがちでした。
ビジュアルと動きの両方を同時に制御するのは、AIにとっても難しいタスクだからです。
Whiskの2ステップアプローチなら:
- まず画像として「サイバーパンク風の街の夜景に立つ、赤い髪の女性戦士」を完成させる
- その画像に対して「剣を抜きながらカメラに向かって歩いてくる、スローモーション」という動きを指定
このように工程を分けることで、それぞれの要素を高精度で制御できるのです。
映画のような表現を実現するコツ
無料プランでは月5本の動画しか作れないため、1本1本を大切に作り込みたいところです。
以下のようなポイントを意識すると、より映画的な動画が作れます:
カメラワークを意識する 静止画では感じられない「映画らしさ」の多くは、カメラワークから生まれます。
「ゆっくりとズームイン」「サイドからパン」などの指示で、雰囲気が出せます。(カメラ用語は無理に使わずAIに任せましょう)
動きの速度を調整する 「スローモーション」や「高速」といった時間軸の操作は、感情的なインパクトを強めます。
重要なシーンではスローモーション、アクションシーンでは通常速度やスピードアップなど、使い分けましょう。
環境要素を活用する 主役の動きだけでなく、「風で木の葉が舞う」「雨が降る」「煙が漂う」といった環境要素を加えることで、シーンに深みが生まれます。
感情表現を丁寧に キャラクターの表情や仕草の変化を細かく指定することで、ストーリー性が高まります。
「最初は悲しそうに、徐々に決意の表情になる」といった変化も表現できます。
制作の実践的なワークフロー
実際の制作では、以下のような流れが効率的です:
- コンセプトの決定:どんな動画を作りたいか、シーンやムードを明確にする
- 参考資料の収集:主題・シーン・スタイルそれぞれの参考画像を集める
- 画像生成と調整:3要素を使って静止画を生成し、納得いくまで調整(この段階なら1日100枚まで試せる)
- 動画プロンプトの準備:完成した画像にどんな動きを加えるか、詳細に計画する
- 動画生成:計画したプロンプトで動画化(月5本の制限があるため慎重に)
- 必要に応じて再調整:もし結果が期待と異なれば、画像段階に戻って調整
このワークフローの鍵は、画像段階で妥協しないことです。
動画化の制限は厳しいですが、画像生成は1日100枚と余裕があります。
基礎となる画像が完璧であれば、動画化での成功率も大幅に上がります。
最後に動画にするのに使ったプロンプト
Heavy rain falling, creating subtle ripples on the wet pavement. Neon signs in the background slowly flicker. The camera slowly pans forward, approaching the figure. (雨が降り、水たまりに波紋ができる。背景のネオンが点滅する。そして、カメラがゆっくりと人物に近づいていく。



まとめ
Google Whiskは、AI動画生成に新しいアプローチをもたらしました。その特徴は、以下の3点です。
1. 3要素による段階的なコントロール 主題・シーン・スタイルを分離して扱うことで、テキストプロンプト方式の限界を超えました。
各要素を独立して調整できるため、試行錯誤が効率的になり、狙った結果を得やすくなっています。
2. 2ステップアプローチの利点 画像生成と動画化を分離することで、それぞれの工程に集中できます。
まず静止画としてビジュアルを完成させ、その上に動きを加えるという段階的なアプローチは、クオリティコントロールを向上させます。
3. 無料でも実用的 月5本という制限はありますが、学習や試作には十分な量です。
1日100枚の画像生成を活用して徹底的に作り込み、満を持して動画化する、という使い方なら、無料プランでも質の高い作品を作れます。
AIを活用したコンテンツ制作を学んでいるみなさんにとって、Whiskは良い実験場になるでしょう。
従来のツールで挫折した方も、この直感的なアプローチなら自分のイメージを形にできるかもしれません。
ただし、これらの利用制限は今後変更される可能性があります。
また、生成された動画の品質や長さ、解像度なども、技術の進化に伴って変わっていくでしょう。
現時点(2025年10月)では、まだ発展途上の技術ですが、その可能性は大きいと言えます。
最後に重要なアドバイスを1つ。
無料プランの月5本という制限を活かすためには、計画的な制作が必要です。
いきなり動画化に挑むのではなく、画像段階で十分にテストと調整を重ね、「これなら確実」という確信を持ってから動画化ボタンを押しましょう。
Google Whiskは、AIクリエイティブの可能性を広げるツールです。
プロのクリエイターでなくても、アイデアと少しの学習意欲があれば、誰でも映画のような動画を作れる時代になっています。
ぜひこの機会に、みなさんも自分だけのビジュアルストーリーを作り出してみてください。
今回作った動画はこちら↓
https://labs.google/fx/tools/whisk/share/animate/0d3198eib0000
指示通りの動画になりました!

