小さなな会社の広報戦略室

静止画の口元を音声に合わせて動かす!

静止画の口元を音声に合わせて動かす!

2025年に入り動画生成AIの進化のスピードは凄まじいです。まずはこれを見てみてください。

上の動画はNotebookMLで音声を生成し、それをHedraにAdobeFireflyで作成した静止画と共にアップして動画を生成したものです。多少の違和感はありますが、静止画をここまで崩さずに口や表情を動かせる動画生成AIの進歩は凄いと思いませんか?

前回ご紹介したskyreelsにも同じようなリップシンク機能(静止画に話す人物や歌う人物の唇の動きと、音声を同期させる技術)がありますが、Hedraの方がクオリティが圧倒的に高いと思います。

このようにリアルに近づきつつあるリップシンク技術は、もう数年もすると現実の人間と変わりなく自然に唇と音声は同期して、そしてAI音声もより人間のしゃべり方に近づくと予想されるので、様々な分野での活用が考えられます。

例えば、

  • アニメーションやショートムービーでの利用。
  • VTuberがリアルタイム配信を行う際にも、バーチャルキャラクターの口の動きをより自然に見せるために活用。
  • 教育コンテンツの分野では、AIアバター講師に合わせたリップシンク動画を作成することで、時間とコストの削減
  • ゲーム開発においては、ゲーム内のカットシーンでキャラクターが会話する様子をよりリアルに表現。

これまでクオリティが今一つだったリップシンク機能が誰でも安価で手軽に利用できるようになることで、新たな市場や表現が生まれるかもしれませんね。

話す、歌う、ラップ、そしてあらゆる言語に対応できるように進化するこの技術は、エンターテイメント、教育、ビジネスなど、様々な分野で活用が期待されます。考えただけでもワクワクしますね!