AIでテキストから画像を生成::ひまつぶし雑記帖

AIでテキストから画像を生成

2022/8/24 [16:06:23] (水)

いま話題の画像生成AI「Stable diffusion」を使ってみた。

ローカルにダウロードしてPython環境、Anacondaとかを作ったりGitからStable Diffusionのソースコードを持ってくるのは大変なので、とりあえず、googleのcolabで使ってみた。

ほんとだったら、ローカルに構築するのがいいんだけど。

とりあえずアカウントが2つ必要。

・googleのアカウント

→gmailのアカウントで、ほとんどの人はすでに持ってるのでは？

・huggingfaceのアカウント

→これは持ってるひとが少ないと思うけど、簡単に作れる。

https://huggingface.co/settings/profile

わたしのようなド素人のヨタじゃなくて、以下のサイトがオススメ。

Google Colab ではじめる Stable Diffusion v1.4

https://note.com/npaka/n/ndd549d2ce556

[Stable Diffusion] AIでテキストから画像を生成する[Python]

https://www.12-technology.com/2022/08/stable-diffusion-aipython.html

とはいえ、自分メモ。

・huggingfaceでの作業

huggingfaceのアカウントを作ったらhuggingfaceのプロフィールページの左メニューからアクセストークン（ACCESS TOKEN）をクリックしてアクセストークンのページを開いてひとつ新規に生成して取得する。

　権限にreadとwriteがあるけど、readで大丈夫だった。

・google colabでの作業

https://colab.research.google.com/?hl=ja

↑ここにアクセスしたらまずは下準備

「ノートブックを新規作成」

素っ気ないページになる。これ、古のターミナルみたいだな。

てのはともかく、やることは以下の4ステップだけ。

１）

「編集」→「ノートブックの設定」→「ハードウェアアクセラレータ」を「GPU」に設定。

２）

次にこの▶のところに以下のコマンドを入力。

!pip install diffusers==0.2.4 transformers scipy ftfy

▶をクリックするとコマンドが実行される。

３）

インストールが済んだら、「＋コード」をクリック。

次のコマンドを入力欄を追加してライブラリのインポート…これをしないと、次のフェーズで403エラーになって止まってしまった。

from diffusers import StableDiffusionPipeline

import matplotlib.pyplot as plt

４）

そして以下で準備完了となる。

TOKEN="Huggingfaceで取得したトークンをコピペ"

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4"， use_auth_token=TOKEN)

pipe.to("cuda")

準備が済んだらいよいよ画像を生成だ。

▶のところに

prompt = "Japanese Bobtail Cat on the Moon" #@param {type:"string"}

image = pipe(prompt)["sample"][0]

image.save("test01.png")

とやってできたのがこの画像

promptがキモ。ていうかAIにどんな画像を作らせるのかAIと話し合いになる。

今回は最初だし「Japanese Bobtail Cat on the Moon」とやってみたけど、そんなに面白い画像がすぐに出てくるわけでもなく、これにしても4回目ぐらい、だったかな。

デフォルト状態で1枚生成するのに20秒ほどだった。

「AIと話し合い」と書いたのはこのリクエストがすべてで、どんな画像を出せるかは話し合い次第。プロンプトをリクエストするひとの腕次第という意味もある。たぶんこの分野、こんな画像が欲しい、というのを翻案して噛み砕いてAIのわかる言葉で伝えるニーズがあるだろうな。

創造とか創作というのは人間や神様だけのものという聖域感がある。

だけど、神様については知らないけど、人間の創造もまったくゼロからというものではなく、いろんなもののインプットの坩堝があって初めてアウトプットが出てくる。

てことはこのAIもやってることは同じ、大量のデータをインプットされて学習したモデルから適当と思しきものを引っ張り出してそれらで合成して作り上げてアウトプットとする。

一部界隈が騒がしいのもわかる気がする。

ほんと、これはひととAIの棲み分け、区別というか、倫理の話にもなりそうだし、SFのネタが現実になりそう。

ちなみに生成した画像は権利関係的にはフリーなので（著作人格権とか肖像権にぶち当たることもありそうだけど）商用利用もOKとのこと。

とりあえずgoogleで使ってみたけど、いろんなパラメータをいじれるはずなのでローカルで構築してみたいとこだなあ…て、今うちで使ってるパソはグラフィックが弱いからパソコン買い替えになるだろうし、当分無理、か。ビンボはつらいぜ、ちくしょう。

» 日常(1033)

[URL]https://t2aki.doncha.net/?id=2916

前記事 | 最新記事 | 次記事

日	月	火	水	木	金	土
<<	2026/1					>>
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31