ChatGPT新機能「DALL-E 3」は凄い！

2023.10.12
AI テクノロジーわくわく気になる

今までも画像生成AIに関して投稿をしてきましたが、chatGPTでDALL-E 3という画像生成AIが使えるようになったということで、メジャーな画像生成AIのAdobe Firefly, DALL-E 3、Stable Diffusionで”同じような”プロンプトで生成が難しいとされるリアル系の人物像を作成して比べてみました。

“同じような”プロンプトとは、Stable Diffusionは設定が必要なパラメーターが色々あるので、その辺調整する関係上、単純なプロンプトのみでは画像が崩れるのでプロンプトを少しつけたし、ネガティブプロンプトもいれてあります。ベースとなるプロンプトは「若い日本人女性、アイスクリーム」です。

各AIでの仕上がりは下にはってあります。画像生成AIでよくある指の変形などがなく良いデキかと思います！

使い勝手が良いのはDALL-E 3です。というかChatGPT-4が凄いのかな。文章作成から分析まで汎用的に色々と使えるので圧倒的です。

画像生成に話を戻すと、DALL-E ２の時にはリアル系人物像では崩れたものが多かったのですがDALL-E 3で画像生成がここまで進化しているとは思いませんでした。簡単な日本語の文章でクオリティが高い画像が生成されます(下記参照）。人物画像でよく利用される、Stable DiffusionやMidjourneyと比べても遜色有りません。DALL-E 3だとネガティブプロンプトを入れることなく簡単に作れるのでブログのアイキャッチの画像に使い勝手は良いと思います。

先にも述べましたがStable Diffusionだと個別の設定や組み合わせなどが無数にあるので、自由度は高いのですが手間がかかります（ローカルに環境構築する場合はITの知識も必要です）。またプロンプトはすべて英語です。

Midjourneyもプロンプトは英語です。使用するにはDiscordにログインする必要があるのでそのあたり面倒かもしれないです。

ChatGPTの進化は本当にものすごく、今回のDALL-E 3の組み合わせは、さまざまな場面で活用されていくと考えられます。僕もイジるたびに「スゲー」と言いながらいじってます。特にうちのような広告を作る側としては画像生成AIは、コンテンツ作成における新しい可能性を広げてくれると思いますのでワクワクします。

OpenAIに後れを取っているgoogleも、ChatGPT-4モデルに対抗する競合製品と位置付けられている「Gemini」を近日公開する予定です。Geminiはプログラムのコードを書いたり、画像を生成したりするのを支援することも期待されています。こちらも楽しみです！

スピードが速く追いつくのが大変ですが、画像生成AIを中心に今後もリサーチをしていきたいと思います。

※商用利用できるのはAdobeFirefly、Midjourney、ChatGPTのDALL-E 3で生成される画像ですが、利用される方は必ずご自分で確認してくださいね。Stable Diffusionは使用モデルやLoraなどによっては商用禁止なものもあるのでそちらもしっかり確認してください。