画像生成AIを使ってみた所感

ツイッターの一部で話題になっていたらしいいわゆる画像生成AIについて、遅まきながら自分でも試してみたのでその記録をメモとして書き残しておく。

背景

画像生成AIがツイッターにおける定番トピックになってからしばらく経つが、ここしばらくは以前に比べてやや注目度が上がっているように感じる。その大きな要因が文化庁に寄せられたパブリックコメントについての盛り上がりと考えている。私自身はかかるパブリックコメントに目を通していないし、そもそもパブリックコメントとして寄せられるものがどのような内容かも分からないので、直接言及するつもりはない。私は法律については素人なので、どういった問題があるのか、あるいはそもそも問題が存在するのかという点は専門家の先生方に任せておきたい。一方で、ここまで(おそらくごく限られた一部の界隈で)議論が盛り上がっているので、その中心にある画像生成AIについて触れることでどのようなことができ、どのようなことができないのかについては知っておけばこのトピックについて考える上での助けにはなると考え、挑戦してみることにした。

また一方で、私自身は絵を描くのが得意ではない、はっきり言って素人である。そこで、私のような人間が一から環境を構築してどの程度の時間でどの程度のことができるのかも私が意見を形成するのに有意義であると思うし、もしそれなりのクオリティのものがそれなりの時間で作れたらそれなりに嬉しいという動機もある。

環境

都内某所にあるネカフェで作業した。入店からの時間がわかるのでいい指標になる。以下にマシンのスペックと使用したモデルの類を示す。

PCスペック

CPU:13th Gen Intel Core i7-13700F
RAM:32GB
ストレージ:Intek SSD PEKNU010TZ, 1TB
GPU: NVIDIA GeForce RTX 4080

ゲーミングPCとして使われているであろうもので、ネカフェで使えるPCとしてはかなりハイスペックな部類に属すると思われる。

モデルとか

Kohaku-XL beta7とUmaMusume All In One LoRAを併用。いずれもCivitaiよりダウンロード。

AUTOMATIC1111氏のStable Diffusion web UIで特に手を加えず走らせた。

やったこと

モデルの説明ページにあったプロンプト例を一部改変し、以下のプロンプトを入れてtext2imageを繰り返し、よさげな画像が出るまで繰り返した。

(masterpiece),(highest quality),highres,(an extremely delicate and beautiful),(extremely detailed), solo, Agens Tachyon \(umamusume\) wears single earring, long sleeves past wrists, collared shirt, yellow sweater vest, black short necktie, white open labcoat with zipper and black pantyhose under vest. she is in white room. she stands on floor and holds vial. closed mouth and light smile, looking at viewer <lora:UmaDiffusionXL-768x1024:1>

納得するまで回して以下の画像を出力とした。

Agnes Tachyon from Uma Musume Pretty Derby, generated by Stable Diffusion

まあまあいい感じじゃない？

続いてこの画像をベースにして、image2imageでさらに微修正を加えていく。上の画像だと特に気になるのは床に広がる尻尾のような毛束らしき物体だと思う。これを雑でもいいので白く塗りつぶす。上述のweb UIで行ってもいいし手元のMSペイントでもいい。

塗りつぶした画像をimage2imageにかけるといい感じに修正してくれるので、ほかにも修正したい箇所があれば適宜プロンプトと組み合わせながら同じようなノリで気になる箇所を修正していき、自分が納得したら完成とする。

なお、ここではその手順を詳細に記載することは行わないが、モデルの中には成人向け画像に特化したものも存在し、image2imageによる修正段階でこういったものと組み合わせれば上の画像から成人向け画像に変換していくことも理論上はできる。一時期話題になっていたイメ損は大体こういうプロセスで作られていたんじゃないかなと思う。

以上のような過程を経て、大体６時間くらいあれば環境を構築して自分がそれなりに納得できる絵は出力することができた。ここら辺はマシンスペックと自分がどれくらいのものを求めるかに大きく依存すると思う。

感想とか

マシンスペックが十分であればそれなりの絵が6時間程度で作成できるというのは中々面白いし、おもちゃとしてはかなり楽しいと思った。

一方で、一部で言われているAIによって絵描きが仕事を奪われるといった論はあまり正確ではないとも思う。率直に言って、ぽっと出の素人がネットに落ちているモデルを使ってたかが数時間で生成した絵はクオリティとしてそれほど高くはない。AI生成という点を無視しても100点満点で60~70点程度の作品を出力するのが事実上の限界だと思う。

そうすると、70点以上の絵はまだまだ人間の絵描きが描く必要ということになる。この点では、一部で不都合な真実かのように語られている、「絵描きの中でもそれほどハイレベルな絵を描かない層と競合する」という説明の方が言い方の問題は別としてより正確な描像だと感じた。

また一方で、絵描きではない素人が一枚絵を見るとき、細かいところのおかしさは気付きはしても気になりはしないというようにも感じた。絵を描かないor描けない人間はそういう部分の解像度があまり高くないゆえかもしれない。ただ、AI絵では今のところストーリー性はほとんど作り出せていないと思う。この点では、絵の描写の文脈における整合性ような、直接的に画像に現れることのない情報の表現ではまだまだ人間の絵描きの方が何枚かは上手だと思う。

AI生成された画像、あるいはAIによる画像生成について思うこと

Chat GPTが社会に衝撃を与え、続いて深く浸透してからしばらく経つが、このようなデータ量にものを言わせて出力するAIは確率的にいわば「それっぽいもの」を出力することには長けている一方、細部の具体性や情報の正確さには欠けているという指摘がよく為されている。例えばGPTで作成した文章は意味は通っていてもよく読むと内容がスカスカだとか、存在しない参考文献を持ってくるといった経験をした人も少なくないと思う。

今回作成した絵でも、細部の書き込みははっきり言って貧弱そのものだし、キャラクターがどこにいてどういう理由でその服装なのか、そのポーズなのかという点は伝わってこない。画像生成AIの中身が画像を切り貼りしただけのコラージュであるといった主張は未だに見受けられるものだが、こうした点を踏まえればそう感じるのも理解はできる。

十分な時間をかけてリファインしていけば、もちろんAIで生成した絵も今回の成果物の絵よりもはるかに上のクオリティに至ることも当然あるだろうし、あるいは題材として細部の正確性や文脈が求められないものに対して適用すればより良い評価を得られるとは思う。こうした点も含めて、上述のChatGPTに対する指摘は文章を生成するAIに対してのものであるとしても、画像生成AIにもかなり当てはまるように感じた。