今や生活のいたるところで話題に出るようになった生成AI技術。
画像生成AIツールとして代表的なものには「DALL・E2」や「Midjourney」「Adobe Firefly」などがあります。
多くのサービスがオンラインで利用するものですが、
実はオフラインでも利用可能な「DiffusionBee」という生成AIアプリケーションもあるのをご存知ですか?
https://diffusionbee.com/(DiffusionBee公式HP)
DiffusionBeeは画像生成をオフラインでできるため、
・プライバシーの面で安全性が高く
・通信環境に左右されにくい
という利点があります。
今回はこのDiffusionBeeをイー・フュージョンの社員が体験してみました。
基本的な使い方をはじめ、ポイントや注意点なども解説いたしますので、ぜひ参考にしてください。
目次
DiffusionBeeとは
先述したように、DiffusionBeeとはオフラインで無料利用可能な画像生成AIアプリケーションです。
「Stable Diffusion」というオンラインで利用可能な生成AIツールをもとに作られています。
画像は基本的に文字列入力をすることで生成します。
入力する文字列は長くなるほど、単語数が多いほどユーザーのイメージする画像に近い画像を生成します。
ちなみに入力する文字列はプロンプト(呪文)と呼ばれています。
AI活用が仕事において重要な鍵となった昨今、的確なプロンプト(呪文)を作成するプロンプトエンジニアと呼ばれる職種も生まれています。
DiffusionBeeのインストールと注意点
インストール時の注意点
DiffusionBeeの概要を理解したところで、早速インストールと言いたいところですが、
インストール前に特に注意すべきポイントが2つあります。あらかじめご確認ください。
- 1:アプリケーションサイズ(4GB~数十GB)の空きががあるかどうか
- 生成AI技術をローカル環境で実施するには、蓄積されたモデルデータをダウンロードする必要があります。
そのため、ご自身のパソコンに十分な空きがあるかあらかじめ確認してください。 - 2:パソコンスペック(OS)の条件を満たしているかどうか
- 現在はMac OSのみの提供となっております。
Windows版はまだ提供されていません。
Mac OSの場合、Intel版(OS 12.3.1以降)とApple Silicon版(OS 11.0.0以降)の2つに分かれています。
インストール方法
注意を踏まえて、インストールしましょう。
公式サイト以下のリンクよりご自身の環境にあったバージョンをダウンロードします。
ダウンロードしたデータを開き、Applicationsにインストールします。(画像はイメージ)
DiffusionBeeのアイコンを選択し、初回読み込みを終えれば、インストール完了となります。
DiffusionBeeの機能概要
インストールするとアプリのホーム画面が表示されます。
シンプルなUIで比較的使いやすそうな印象です。
各機能の概要や利用用途は以下の通り。
Text To Image | DiffusionBeeのメイン機能。プロンプトから任意の画像生成をする機能です。 |
---|---|
Image To Image | あらかじめ参考画像を用意し、さらにプロンプト入力により画像生成する機能です。 |
Inpainting | 用意した画像の修正したい箇所を選択後、プロンプト入力により部分的な修正をする機能です。 |
Outpainting | 画像を選択後、任意の大きさに余白を広げ、プロンプト入力により余白部分を補完する機能です。 元々の描画はそのままに画像面積を広げたい場合に活用できます。 |
ControlNet | 同じ構図やポーズで一部分のみを変更する機能です。 画像にバリエーションを持たせたり、印象の変更に活用できます。 |
History | これまでの生成履歴を確認する機能です。 |
Text To Imageを実際に使ってみる
今回は、DiffusionBeeのメイン機能「Text To Image」を実際に使ってみます。
Text To Imageはプロンプトをもとに画像を生成する機能ですが、今のところ英語のプロンプトだけが利用できるようです。
英語入力が慣れていない・英語に苦手意識があるという方は、
英語のプロンプトによるAI画像が紹介されているサイトがいくつかありますので、そこからプロンプトを参考にしたり、
Google等の翻訳機能を活用して英文プロンプトを作成してください。
・https://arthub.ai/ (AIイラスト/画像のコミュニティーサイト arthub)
・https://lexica.art/ (画像生成ツールサイト lexica)
Text To Imageの使い方
生成方法は次のとおり。
①入力欄にプロンプトを入力し、②「Generate」を選択します。
③数十秒ほどで画像が生成されます。
パソコンのスペック等によりますが、早くて数十秒で画像生成ができます。
生成した画像はクリックして新規ウィンドウからプレビューを確認できます。
プレビューは保存して利用可能です。
生成画像の保存・削除方法
また、生成画像は全てアプリメニューのHistoryとPCのフォルダ上から確認可能です。
画像をクリックすると新規ウィンドウで画像が表示されますので、そこから保存可能です。
また、画像左上にあるメニューを選択すると、生成画像をText To ImageやImage To Imageに流用することが可能です。
右側にある「Delete」を選択すると履歴上から削除することが可能です。
また、パソコン内のフォルダ上はデフォルトで User名/.diffusionbee/images に保存されていますので、そこから確認することも可能です。
生成画像データを削除する場合は、このimagesフォルダから画像を削除します。
理想的な画像を生成するための工夫
操作自体は3ステップで非常に簡単なものの・・・ただ入力するだけでは、
目的にあったジャンルとは異なる画像や画質がそぐわないものが出力される可能性があります。
そこで取り入れたいのがスタイル/オプション機能です。
(Generateボタン左にある「styles / options」がそれに該当します。)
スタイル機能
スタイル機能を使うと画像の画風や参考とする画家の特徴、視点等の条件を追加することが可能です。
Drawing Style | 描画スタイルを変更できる単語が集められています。 (子供の絵やドットアート、スケッチなど) |
---|---|
Visual Style | 画像の使われるシーンやジャンルに合わせて変更できる単語が集められています。(漫画、写真、CGなど) |
Camera | 画像の光の入り方・撮り方を変更できる単語が集められています。(空撮、HD、夕焼けなど) |
Color | 色使いを変更できる単語が集められています。 |
Style of an artist or community | 一部の画家やコミュニティーアートの名が集められています。 指定することで、画風を画家に寄せることが可能です。 |
オプション機能
オプション機能は画像のサイズや出力枚数等の画像設定を変えることが可能です。
Number of images | 1度の画像生成で作成する枚数を設定できます。 |
---|---|
Resolution | 出力する画像のサイズを指定できます。 |
Seed | 通常はランダムな値が指定されていますが、同じ値を指定すると同様の画像が生成されます。 例えば、人物の画像を生成時に、このSeed値が同じだと同じ人物を利用して画像が生成されますが、異なる値だと違う人物を利用して画像が生成されます。 |
Steps | ノイズ除去処理回数を指定できます。数値が増えるほど高精度の画像が生成できますが、その分処理に時間がかかるため注意が必要です。 |
Guidance scale | プロンプトにどれだけ忠実に画像を生成するかの目安です。 0〜20のうちいずれかを選択します。 |
Batch size | 同時に生成する画像枚数を指定できます。 メモリが16GB以下の環境下は1が推奨されています。 |
Negative Prompt | 有効にすると画像に含めたくないプロンプトの入力欄が出現します。 避けたいプロンプトを入力することで、より高精度な画像生成が可能になります。 適用条件と否定条件の双方でプロンプトが使えるようになるため、有効にするのがおすすめです。 |
実際の検証結果を紹介
今回は試しに風景・生き物で画像生成を検証しました。
「cherry blossoms(さくら)」をベースに、Styleとプロンプトの追加で調整した例
「A dog sunbathing(日向ぼっこする犬)」をベースに、Styleとプロンプトの追加で調整した例
生成画像は外部で使えるの?
画像を生成してから気になるのが、利用規約です。
いざ作ったものを利用しようとして規約違反等の問題にかかわるのが怖いところ。
公式サイトによると、CreativeML Open RAIL-M ライセンスに準拠している限り、生成された画像を自由に使用できます。とのこと。
基本的に社会に悪影響になるような使い方、他の人に迷惑がかかるような使い方を避ければ利用できるといった内容です。
また、画像を事前に用意して生成する「Image To Image」等を使う場合は、事前に用意する画像が無断利用にならないように注意しましょう。
原文は全て英文ですが、日本語訳で解説してくださっている方もいらっしゃるので、原文も参照しつつ、確認しておくことをお勧めします。
※日本語訳、意訳・要約を紹介してくださっている方の記事はこちら
CreativeML Open RAIL-M ライセンスをわかりやすく意訳:
https://zenn.dev/hases0110/articles/7cff43c5baed7d
終わりに
今回紹介したDiffusionBeeはオフラインで利用可能にも関わらず、プロンプト次第で様々な画像を生成することができました。
また、プロンプトの追加、各種オプションの調整次第で画像の印象もだいぶ変えることが可能です。
しかし、全体的に動作が重い時があること、人物画像に関しては思うような画像が生成できなかったので、この辺りは作業環境の整備やプロンプトの入力方法に一工夫必要な印象です。
本アプリケーションは操作が非常に簡単でかつオフラインで実施可能ですので、生成AIとはどういったものなのかを安全に体験することができます。
生成AIが注目されている今、ご興味のある方はこの機会にぜひ、インストールしてみてはいかがでしょうか。
https://diffusionbee.com/(DiffusionBee公式HP)