グーグルの新画像生成AI「Whisk」の機能と特徴

Googleが新たに発表した画像生成AI「Whisk」は、画像をプロンプトに使い簡単にオリジナル画像を生成できる機能です。日本文化を反映したテンプレートも追加されています。

要約するとGoogleは、12日に「Google Labs」で新たな画像生成AI機能「Whisk」を発表しました。

この機能は、生成AIを活用しており、日本を含む100以上の国と地域で順次提供される予定です。

Whiskの最大の特徴は、詳細なテキストプロンプトを必要とせず、画像をプロンプトとして使用できる点です。

ユーザーは好きな画像を選択し、それをWhiskに入力するだけで、簡単に画像生成を始めることができます。

具体的には、モデル、シーン、スタイルごとに自分の好みの画像を入力し、それらを組み合わせることで、選択したテンプレートに合わせたオリジナルの画像を生成します。

特に日本での提供開始にあわせて、日本文化からインスパイアを受けた「カプセルトイ」と「お弁当」という2つのテンプレートが追加されました。

また、バレンタインデーに合わせた特別なテンプレートも用意されており、ユーザーは季節感を楽しむことができます。

Whiskのシステム内では、Geminiが画像の詳細なキャプションを自動的に生成し、その説明をGoogleの画像生成モデル「Imagen 3」に入力します。

これにより、Whiskは画像からいくつかの重要な特徴を抽出しますが、ユーザーが期待する画像と異なる場合もあります。

例えば、生成されるモデルの身長、体重、髪型、肌の色が異なることがあるため、ユーザーは注意が必要です。

もし生成された画像が期待に達していない場合、元となるプロンプトを表示・編集することが可能で、この際は英語でのプロンプトの使用が推奨されています。

なお、Whiskの利用は18歳以上に制限されており、ユーザーの安全性にも配慮されています。

最近の投稿