小さなな会社の広報戦略室

GoogleとOpenAIの動画生成AI

最近のVeo2の評判を見るとSoraを超えている感じです。SoraとVeo2は、どちらもテキストプロンプトから高品質な動画を生成する最先端のAIモデルですが、それぞれに特徴、得意な点、そして現時点での課題(苦手な点)もあります。どうせならそれぞれのAI(ChatGPTとGemini)にその質問をぶつけてみました。

ChatGPTの返答:Sora(OpenAI)

  • 多様な入力と編集ワークフロー
    テキストだけでなく静止画・既存動画を入力にでき、ループ動画生成・延伸(out/​in-painting)・スタイル変換・映像間インターポレーションなど編集系タスクを1モデルでこなせる。ChatGPT内のストーリーボード機能や「Sora Turbo」の高速化で制作フローを短縮できる。​
  • 長尺シーンを保つ時空間コヒーレンス
    1080p/20 秒までの公開版でも、動くカメラ下で被写体の3D的一貫性やオブジェクトパーマネンスを比較的維持できる。研究版では最大1分動画まで到達しており、物体がフレーム外に出ても再登場させる例が確認されている。​
  • デジタル世界の簡易シミュレーション
    マインクラフト等の仮想環境をレンダリングしつつキャラクタを操作する“ワールドシミュレーター”的挙動が現れており、ゲーム系プロトタイプや概念検証に強い。​
  • 物理挙動の破綻
    ガラスの割れ方、液体の挙動、指の本数など基本物理や生体運動が破綻するケースが依然多い。OpenAI自身も「複雑な動きや長時間の連続動作では不正確」と認めている。​
  • バイアスとフェアネス
    職業・性別・身体的多様性の描写に偏りが残り、ステレオタイプを助長しうる点が指摘されている。
  • 実用上の制約
    公開版は1080p/最長20 秒、Plus/Pro利用枠付き。物理的不自然さを除去するポスト処理工数と、クレジット制限による量産コストがネックになりやすい。

Geminiの返答Veo2

  • 1080p解像度での高品質動画生成: 高解像度(1080p)で、細部までクリアな動画を生成できます。
  • 1分を超える長尺動画生成: 1分を超える長さの動画を一貫性を保ちながら生成する能力をアピールしています。
  • 映像表現・専門用語の理解: 「タイムラプス」や「ドローンショット(空撮)」といった映像制作特有の指示や、映像のトーン(例:劇的な、コミカルな)を理解し、反映させる能力が高いです。
  • 高い一貫性: 動画全体を通して、人物、物体、背景、そして映像のトーン(雰囲気)の一貫性を高く保つことができます。
  • リアルな動きの再現: 人物、動物、物体の動きをよりリアルに描写することに注力しています。
  • 高度な意味理解: 自然言語(プロンプト)と視覚的な要素の関係性を深く理解し、ニュアンスを捉えた動画生成を目指しています。
  • 編集機能との連携: Googleの他のツール(例: VideoFX)と連携し、生成された動画の特定の部分だけを修正するような編集機能も提供される見込みです。
  • 物理シミュレーションの限界: Soraと同様に、複雑な物理法則や相互作用を完全に正確にシミュレーションすることは依然として難しいと考えられます。
  • 予期せぬアーティファクト: 高度なモデルであっても、時折、不自然な映像や意図しないディテールが生成される可能性は残っています。
  • 未知の弱点: Soraに比べて発表が後発であり、公開されているデモや情報がまだ限定的であるため、Soraほど具体的な弱点が広く知られているわけではありません。一般利用が開始されれば、新たな課題が見つかる可能性があります。

これ以外にも多くの動画生成AIが出てきていますので追いかけるのに大変です。2025年現在の人気モデルは Sora / Veo 2 / Runway Gen-3 / Luma Dream Machine / Hailuo / Pika 2 / HeyGen でしょうか。これ以外にあると思いますが、それぞれの制約事項を確認したうえで目的ごとに使い分けていくのが良いですね。