Google Veo 3入門2026|料金・使い方・無料で始める方法
目次
Googleアカウントさえあれば月10本まで動画を無料で生成できる。Veo 3がリリースされてから半年、2026年6月時点でVeo 3.1ファミリーはQuality・Fast・Liteの3階層に分化し、個人クリエイターから企業のマーケティング部門まで用途別に選べる体制が整った。
動画生成AIの市場は混戦模様だが、Veo 3が頭ひとつ先を行く理由は明確で、映像・セリフ・効果音・BGMを1回のプロンプトで同時生成する「ネイティブ音声同期」にある。従来は映像→BGM素材選定→ボイスオーバー収録→合成という4ステップだった工程が、プロンプト送信の1ステップに集約される。
この記事では料金の実額、3モデルの画質差、5つのアクセス経路、そして副業への活用法まで、Veo 3を今日から使い倒すための情報を詰め込んだ。
Veo 3とは|Googleが動画生成AIに本腰を入れた理由
Veo 3はGoogleのAI動画生成モデルで、テキストプロンプトから映像と音声をワンショットで出力する。映像制作における「一発録り」に近い。従来のワークフローが映像→音響→ミックスの3工程を別々に回していたとすれば、Veo 3はその3つを同じパイプラインで同時に処理する。2025年12月にVeo 3が登場し、2026年1月にVeo 3.1へアップデート。3月末にGoogleがコスト特化のLiteを追加し、現在3モデル体制で走っている。
基本スペック
| 項目 | 仕様 |
|---|---|
| 最大解像度 | 4K(Quality / Fast)、1080p(Lite) |
| フレームレート | 24fps |
| 生成尺 | 4〜8秒(延長機能で最大60秒) |
| アスペクト比 | 16:9 / 9:16(縦型対応) |
| 音声 | 48kHz ステレオ(空間オーディオ対応) |
| 音声内容 | セリフ・効果音・環境音・BGMを同時生成 |
動画生成AIは「映像だけ作れるが音声は別ツール」という製品がほとんどだった。Veo 3は映像と音声を1パイプラインで処理するため、人物が話すシーンでリップシンクが合い、車が横切れば音も左から右へ移動する。この統合性が最大の差別化要素になっている。
Veo 3.1で追加された機能
2026年1月のアップデートで実用性が大きく跳ねた。追加機能は3つ。
縦型動画(9:16)
YouTube ShortsやTikTok向けの縦型が生成可能に。SNS運用の工数が激減する。
参照画像(Ingredients)
顔・服装・背景を最大3枚の画像で指定。シリーズ動画でキャラクターの見た目がブレない。
動画延長(Extension)
生成済み動画の続きを追加生成。最大60秒までつなげられる。
特に参照画像機能は、YouTubeチャンネルのオープニングアニメーションやプロダクト紹介動画で重宝する。同じキャラクターが毎回違う顔になる問題は、動画生成AIの致命的な弱点だった。Veo 3.1はここを正面から潰しにきている。
Veo 3.1の3モデル比較|Quality・Fast・Liteの選び方
Veo 3.1は用途と予算で選べる3段階構成をとっている。品質のQuality、速さのFast、安さのLite。この3択だ。
| 項目 | Quality | Fast | Lite |
|---|---|---|---|
| API単価(720p) | $0.40/秒 | $0.10/秒 | $0.05/秒 |
| API単価(1080p) | 非公開 | 非公開 | $0.08/秒 |
| 最大解像度 | 4K | 4K | 1080p |
| 生成速度 | 約2分40秒 | 約1分13秒 | 約1分13秒 |
| 参照画像 | 対応 | 対応 | 非対応 |
| 動画延長 | 対応 | 対応 | 非対応 |
| 空間オーディオ | 対応 | 対応 | 対応 |
Qualityを選ぶ場面
CM級の映像を作りたい場合、あるいはクライアントワークで「4Kかつ最高画質」が必須条件のプロジェクトに向く。8秒の動画1本で約$3.20。日本円換算で約500円。映像制作会社の外注費と比べれば誤差の範囲だが、個人の試行錯誤用としては重い。
Fastが最もコスパが良い理由
2026年4月7日の価格改定でFastの単価が大幅に下がった。画質はQualityと比較して1〜8%の差。シンプルなシーンでは1〜3%しか違わず、肉眼で区別するのはまず無理だ。4K出力も参照画像も使える。8秒で約$0.80(約125円)。ほとんどの用途でFast一択になる。
筆者のおすすめ
自分ならFastをメインに使う。アイデア出しの段階ではLiteで素早く回し、納品用の1本だけFastで生成する運用が最も無駄がない。Qualityは「4K + 最高画質でなければクライアントが首を縦に振らない」ケース限定。
Liteの使い所
2026年3月31日リリース。単価はFastの半額以下で、SNS用ショート動画の量産に最適化されている。4K非対応・動画延長なし・参照画像なしと制約は多いが、720pのInstagramリールやYouTube Shortsなら十分な画質。1本あたり約$0.40(約60円)で、テスト用にガンガン回せる価格帯になっている。
Veo 3の料金体系|無料枠からAPI課金まで
Veo 3の課金体系は「消費者向けプラン」と「API従量課金」の二層構造。個人利用ならプラン、組み込み開発やバッチ処理ならAPIを選ぶ。
消費者向けプラン(Google AI サブスクリプション)
| プラン | 月額 | 動画生成 | 備考 |
|---|---|---|---|
| 無料 | ¥0 | 月10本 | Googleアカウントのみで利用可 |
| AI Plus | ¥1,200(初月¥600) | 200クレジット/月 | Fast: 約10クレジット/本 |
| AI Pro | 非公開 | 1日3本 / 1,000クレジット/月 | Quality利用可 |
| AI Ultra | 約¥37,500($249.99) | 大量生成向け | 商用利用・チーム向け |
まず無料枠で試し、月10本では足りないと感じたらAI Plusに上げるのが自然な流れ。AI Plusの200クレジットでFast動画を約20本生成できる計算になる。月¥1,200で20本なら1本60円。ここは素直に安いと感じる。無料枠の10本で「使える」と判断したら、AI Plusへの課金をためらう理由がない価格設定だ。
API従量課金(Vertex AI / Gemini API)
自前のアプリやワークフローにVeo 3を組み込む場合はAPIを使う。課金は「生成した動画の秒数 × モデル単価」のシンプルな従量制。
# Vertex AI でVeo 3.1 Fastを呼ぶ例(Python)
from google.cloud import aiplatform
client = aiplatform.gapic.PredictionServiceClient()
response = client.predict(
endpoint="projects/YOUR_PROJECT/locations/us-central1/publishers/google/models/veo-3.1-fast",
instances=[{"prompt": "A golden retriever running on a beach at sunset, cinematic lighting"}],
parameters={"aspect_ratio": "16:9", "duration_seconds": 8}
)
# 8秒 × $0.10 = $0.80 per request
コスト試算の目安
YouTube向けに月30本の8秒動画をFastで生成する場合: 30本 × 8秒 × $0.10 = $24/月(約3,700円)。Liteなら$12/月。自社のプロモーション動画を外注するコスト(1本5〜20万円)と比べると、桁が2つ違う。
Veo 3の使い方|5つのアクセス経路を整理
Veo 3にたどり着くルートが複数ある。スマホでサクッと試したいならGeminiアプリ、映像制作ツールとして使うならGoogle Flow、と入口は明確に分かれている。
1. Geminiアプリ(最も手軽)
スマホのGeminiアプリまたはgemini.google.comからプロンプトを入力するだけ。無料枠はここから消費される。動画生成メニューを選択し、テキストを入力→生成ボタンで完了。
2. Google Flow(映像制作向け)
Googleの映像制作特化ツール。QualityとFastを切り替え可能。プロンプトの細かい調整やシーンの連結がやりやすく、本格的な動画制作に向く。
3. Google Vids(ビジネス向け)
vids.newからアクセス。プレゼン動画やチーム向け説明動画の生成に特化。Google Workspaceとの連携が強み。
4. Vertex AI / Gemini API(開発者向け)
REST APIやPython SDKから呼び出す。バッチ処理や自社アプリへの組み込みに使う。従量課金で細かくコスト管理可能。
5つ目はYouTube Shortsの作成画面。YouTube Studioから直接Veo 3で動画を生成し、そのままShortsとして投稿できる。YouTuberにとっては動画編集ソフトを開く必要すらなくなった。
最速で1本目を生成する手順(Geminiアプリ)
手順は3ステップ。所要時間は約2分。
Geminiにアクセス
gemini.google.comを開き、Googleアカウントでログイン。アプリ版ならGeminiアプリを起動。
プロンプトを入力
「動画を生成して」と前置きし、シーンの説明を書く。例:「夕暮れの渋谷スクランブル交差点を俯瞰で撮影、人々が行き交う、シネマティックな照明」
生成・ダウンロード
1〜3分で動画が生成される。プレビューで確認し、MP4でダウンロード。気に入らなければプロンプトを調整して再生成。
# プロンプトの書き方テンプレート
# [被写体] + [動作] + [場所/背景] + [カメラワーク] + [雰囲気/照明]
# 例1: 商品紹介
"白いテーブルの上にコーヒーカップ、湯気が立ち上る、
カメラがゆっくりズームイン、暖かみのある自然光、
ASMRのような静かな環境音"
# 例2: SNS用ショート
"猫がキーボードの上を歩く、正面からのクローズアップ、
コミカルなBGM、ポップな色調"
# 例3: ビジネス動画
"モダンなオフィスでチームがホワイトボードに向かって議論、
ドリーショットで左から右へ、プロフェッショナルな照明"
プロンプトのコツは「カメラワーク」と「音の指示」を明示的に入れること。Veo 3は音声も同時に生成するため、「静かなジャズBGM」「街の雑踏」のように音の指定を入れると出力の質が変わる。筆者が10パターンほどプロンプトを試した限りでは、音の指定を入れた動画と入れなかった動画では完成度に明確な差が出た。音の指示なしだと映像は綺麗でも無音に近く、結局後から音を足す羽目になる。
音声同期と空間オーディオ|他にない最大の武器
Veo 3の真骨頂は音声同期にある。競合のKling 3.0もリップシンクに対応しているが、Veo 3はセリフ・効果音・環境音・BGMの4要素を1パイプラインで出力する。後から音声を別ツールで合成する工程がまるごと消える。
空間オーディオの仕組み
画面内のオブジェクトの位置に連動して音の定位が変わる。車が左から右に横切れば、エンジン音も左チャンネルから右チャンネルへ移動する。48kHzステレオで処理され、ヘッドフォンで聴くと「映像の中に立っている」ような体験になる。
静止した人物のスピーチ動画では左右の分離は感じられるが「音が動いた」という印象はない。カメラが左から右にパンするドリーショットに車のエンジン音を付けたシーンで初めて「音が追ってくる」と体感できる。ヘッドフォン必須の機能だ。
セリフ生成の精度
プロンプトに「"Hello, welcome to our store" と店員が笑顔で話す」のように直接セリフを書くと、キャラクターがその通りに発話する。日本語のセリフ生成にも対応しているが、英語に比べるとリップシンクの精度は落ちる。現時点では英語セリフ→字幕で日本語を被せる運用の方が品質は安定している。
音声指示のベストプラクティス
プロンプトに以下の4要素を含めると音声の質が上がる:
① BGM: ジャンルとテンポ(例: 「アップテンポのエレクトロニカ」)
② 環境音: 場所を特定する音(例: 「カフェの話し声、食器の音」)
③ 効果音: 動きに連動する音(例: 「ドアが閉まる音」)
④ セリフ: 引用符で囲む(例: 「"今日も一日お疲れ様"」)
Ingredients to Video|参照画像でキャラを固定する
動画生成AIで「同じキャラクターが動画ごとに別人になる」問題は深刻だった。シリーズ物のコンテンツを作ろうとすると、毎回顔が変わって使い物にならない。
Veo 3.1のIngredients to Video機能はこの問題を正面から解決する。最大3枚の参照画像をアップロードし、顔・服装・背景をそれぞれ固定できる。
3つのスロットの使い分け
👤
スロット1: 顔
キャラクターの顔写真をアップロード。角度は正面〜斜め45度が最も安定する。
👔
スロット2: 服装
全身の服装画像。ブランドロゴやユニフォームの再現に使う。
🏞️
スロット3: 背景
シーンの背景を固定。自社オフィスや店舗の写真を入れると統一感が出る。
参照画像なしで同じキャラを5本連続生成すると、3本目あたりから髪型や顔の輪郭がブレ始める。シリーズもので参照画像がないとまず使いものにならない。
# API経由でIngredients to Videoを使う設定例
{
"model": "veo-3.1-fast",
"prompt": "A woman presenting a new product in a modern studio",
"reference_images": {
"face": "gs://my-bucket/character-face.jpg",
"outfit": "gs://my-bucket/brand-uniform.jpg",
"background": "gs://my-bucket/studio-set.jpg"
},
"aspect_ratio": "16:9",
"duration_seconds": 8
}
注意点として、Liteモデルでは参照画像機能が使えない。キャラ固定が必要ならFast以上を選ぶ必要がある。コストとキャラ一貫性のトレードオフを考えると、シリーズもののメイン動画はFast、バリエーション違いの量産はLiteという棲み分けが現実的だ。
Veo 3 vs Kling 3.0 vs Sora|動画生成AI三つ巴の構図
2026年6月時点の動画生成AI市場は、Google Veo 3.1・Kuaishou Kling 3.0・OpenAI Sora(サービス終了)の3モデルが話題の中心にある。Soraは2026年に入ってサービスを終了したが、比較対象として残しておく価値がある。
| 比較項目 | Veo 3.1 | Kling 3.0 | Sora(終了) |
|---|---|---|---|
| 最大解像度 | 4K | 4K(ネイティブ) | 1080p |
| 最大尺 | 60秒(延長込み) | 15秒 | 60秒 |
| フレームレート | 24fps | 60fps | 24fps |
| 音声生成 | セリフ+効果音+BGM同時 | 多言語リップシンク | なし |
| 空間オーディオ | 対応 | 非対応 | 非対応 |
| 無料枠 | 月10本 | 毎日数本 | 終了 |
| 参照画像 | 最大3枚 | 対応 | 非対応 |
自分ならVeo 3を選ぶ理由
ポジションを取る。音声込みで動画を完成させたい用途ならVeo 3一択。Kling 3.0は60fpsのなめらかさとネイティブ4Kで映像品質では上回る場面があるが、音声を別で合成する手間が発生する。トータルの制作時間で考えると、Veo 3の「プロンプト1本で映像+音声が出る」メリットは大きい。
一方、音声が不要で映像品質だけを追求するならKling 3.0の方が向いている。60fpsのヌルヌル感はVeo 3の24fpsでは再現できない。ゲーム実況のオープニングやダンス動画など、動きの滑らかさが命のコンテンツではKlingに軍配が上がる。
Soraは登場時に業界を騒がせたが、1年足らずでサービス終了。OpenAIがエージェント領域に経営資源を集中させた結果だ。動画生成の2強はVeo 3とKling 3.0に絞られた。詳しい動向は動画生成AI戦国時代の勢力図にまとめている。
Veo 3を副業・実務に活かす具体例
「面白い技術だけど、仕事にどう使う?」が本音だろう。実際にVeo 3を使って副業案件を回しているフリーランスの事例を集めたところ、以下の5パターンが多い。
1. YouTube Shorts量産
単価は1本60円。
月30本作っても約1,800円。トレンドネタのショート動画をVeo 3で生成→字幕を乗せてShortsに投稿する運用は、副業の入口としてリスクが低い。収益化条件(登録者500人+再生3,000時間 or ショート300万回)を超えれば広告収入が入る。
2. SNS広告のクリエイティブ制作
外注費の150分の1になる。
InstagramやFacebookの動画広告を外注すると1本3〜10万円が相場。Veo 3 Fastなら1本125円で、10パターン作っても1,250円。A/Bテスト用のクリエイティブを大量に回せるのは個人事業主や小規模ECにとって大きな武器になる。
3. プロダクト紹介動画
ランディングページに埋め込む30秒のプロダクト紹介動画。従来は撮影+編集で20万円〜だった制作費が、Veo 3 + 動画延長機能で数千円に落ちる。Ingredients to Videoでブランドカラーやキャラを統一すれば、それなりに見える品質が出る。
4. 教育コンテンツ
概念を視覚化する短い動画は、ブログ記事やオンラインコースの補助教材として需要がある。「ニューラルネットワークのデータの流れ」「SQLのJOIN処理のイメージ」のような抽象概念を動画で見せると理解度が上がる。UdemyやSchooの講師なら授業の質に直結する。
5. クライアントワーク(動画制作代行)
中小企業は「動画を作りたいが予算がない」というケースが多い。Veo 3を使って1本2〜5万円で請け負い、実際のコストは数百円。粗利率90%超の動画制作代行ビジネスが成立する。生成AIで稼ぐ副業10選でも動画制作は高単価カテゴリとして紹介している。
副業で使う場合のコスト感
Liteプランで月50本生成 → 約3,000円。AI Plus(¥1,200/月)に入ればFastで20本。副業の初期投資としては破格の安さ。ただし商用利用の場合、Google AI Plusの利用規約で「生成物の商用利用OK」を必ず確認してから始めること。
Veo 3のつまずきポイントと対処法
触り始めて最初にぶつかる壁を先に潰しておく。
SynthID透かしは消せるのか
GoogleはVeo 3で生成した全動画にSynthID電子透かしを自動で埋め込む。肉眼では見えないが、検出ツールを通すとAI生成と判定される。再エンコードやトリミングをかけても透かしは消えない。クライアントに納品する際は「AI生成動画にはSynthIDが含まれる」旨を事前に伝えておくのが無難。
日本語セリフの限界
英語のセリフ生成は口の動きと音声がほぼ一致するが、日本語では口パクのタイミングがずれるケースが目立つ。実際に同じ内容を英語と日本語で試してみると、英語版のリップシンク精度は95%前後なのに対し、日本語版は70〜80%程度。回避策は2つ。英語セリフで生成して日本語字幕を被せる方法か、セリフなしの映像を生成して後からボイスオーバーを合成する方法。
生成に失敗した場合
プロンプトがポリシーに抵触すると生成自体が拒否される。実在の人物名、暴力表現、性的表現が含まれる場合に発生しやすい。エラーが出たらプロンプトから固有名詞を外すか、表現を抽象的にする。それでも解決しない場合はGoogle Flowで同じプロンプトを試すと通ることがある(プラットフォームごとにフィルタリングの閾値が微妙に異なる)。
注意: クレジット消費のタイミング
生成に失敗してもクレジットは消費される場合がある。特にQualityモードでは処理が走った時点でカウントされる。失敗を減らすには、まずLiteかFastで構図とプロンプトを固めてから、本番用にQualityで生成する流れが安全。
GeminiとGoogle Flow、どちらを使うべきか
判断基準はシンプル。1本だけサクッと作りたいならGeminiアプリ。複数カットを連結して長尺動画を作る・参照画像を使う・プロンプトの微調整を繰り返すならGoogle Flow。Geminiはチャット画面の延長なので操作が手軽だが、タイムライン編集や動画延長のUI はFlowにしかない。
よくある質問
Q. Veo 3は完全無料で使える?
Googleアカウントがあれば月10本まで無料。それ以上はAI Plus(¥1,200/月)以上のプランが必要。
Q. 商用利用は可能?
Google AI Plus以上のプランで生成した動画は商用利用可能。無料枠で作った動画の商用利用は利用規約で制限される場合がある。納品前にGoogle AI Studioの最新規約を確認すること。
Q. 1本の動画は最長何秒?
1回の生成で4〜8秒。動画延長機能(QualityとFastのみ)を使えば最大60秒まで伸ばせる。ただし延長のたびにクレジットを消費する。
Q. 解約したら生成済みの動画はどうなる?
ダウンロード済みの動画はローカルに残る。未ダウンロードの動画はGeminiの履歴に一定期間保持されるが、アカウント削除やプラン変更で消える可能性があるため、生成後はすぐにダウンロードしておくのが安全。
Q. Veo 3とKling 3.0、どちらが高画質?
映像品質だけならKling 3.0がやや上。60fpsのなめらかさとネイティブ4K対応で、動きの多いシーンでの差が出る。ただしVeo 3は音声同時生成という別軸の強みがあるため、単純比較は難しい。音声不要なら Kling、音声込みならVeo 3が現実的な選択肢になる。詳しくはKling 3.0入門も参照。
Q. SynthID透かしは視聴者にバレる?
肉眼では判別不可能。専用の検出ツール(Google SynthID Detector等)を通さないとわからない。一般の視聴者がSNSで見る分には気づくことはまずない。
まとめ
Veo 3は「映像+音声を1プロンプトで出力する」というアプローチで、動画制作の工程を根本から変えにきている。無料枠の月10本で手触りを確かめ、Fastの125円/本で実用レベルの動画を量産する。この価格帯なら副業の試行コストとしても許容範囲だろう。
もったいないと感じるのが日本語セリフの精度。英語のリップシンクは高水準だが日本語はまだ発展途上で、字幕かボイスオーバーで回避するしかない。Googleのローカライゼーションチームが日本語の口形素データを強化してくれるまでは、この制約とうまく付き合う必要がある。
結論、動画にナレーションやBGMを付ける作業をゼロにしたいならVeo 3が現時点で最も近い。自分はFastをメインに使っている。アイデア出しにLiteを回し、納品用の1本だけFastで仕上げる。この運用なら月2,000円以下で済む。まずGeminiで1本試せばわかる。
AI動画編集で稼ぐ方法や生成AIで稼ぐ副業10選も合わせて読むと、動画生成を収益化するイメージが具体的になる。