静止画の口元を音声に合わせて動かす!

2025年に入り動画生成AIの進化のスピードは凄まじいです。まずはこれを見てみてください。

上の動画はNotebookMLで音声を生成し、それをHedraにAdobeFireflyで作成した静止画と共にアップして動画を生成したものです。多少の違和感はありますが、静止画をここまで崩さずに口や表情を動かせる動画生成AIの進歩は凄いと思いませんか？

前回ご紹介したskyreelsにも同じようなリップシンク機能（静止画に話す人物や歌う人物の唇の動きと、音声を同期させる技術）がありますが、Hedraの方がクオリティが圧倒的に高いと思います。

このようにリアルに近づきつつあるリップシンク技術は、もう数年もすると現実の人間と変わりなく自然に唇と音声は同期して、そしてAI音声もより人間のしゃべり方に近づくと予想されるので、様々な分野での活用が考えられます。

例えば、

これまでクオリティが今一つだったリップシンク機能が誰でも安価で手軽に利用できるようになることで、新たな市場や表現が生まれるかもしれませんね。

話す、歌う、ラップ、そしてあらゆる言語に対応できるように進化するこの技術は、エンターテイメント、教育、ビジネスなど、様々な分野で活用が期待されます。考えただけでもワクワクしますね！