画像生成AIを使ってみた所感2(img2img編)

下記の通り、以前にAIで画像を生成してみた感想を述べたところだが、追加で試したことがあるため、その内容と感想をメモとして残しておく。

comb.hatenablog.jp

背景

前回の記事で画像生成AIを使うことで何ができるか、何ができないかを確認するという目的のもと、生成を行った。その結果、絵を描くのが苦手な人間でも画像を数時間程度で生成できること、また生成した画像。は質として極めて優れているとまでは言えないが、素人の目からは鑑賞には堪える程度の質であることを確認した。

一方で、前回の記事ではimg2imgでの修正について触れていたが、時間と装置の都合であまり丁寧にimg2imgによる修正のステップを行うことができなかった。そこで、今回は前回と同様の環境で、img2imgに注力してどのようなことができるのか、どのようなことができないかをより深く確認することを目指したいという動機があった。

環境

概ね前回と同じではあるが、今回の変更点として、img2imgを頻繁に行うことからiPadとApple Pencilも用意した。

やったこと

前回同様、モデルの説明ページにあったプロンプト例を一部改変し、以下のプロンプトを入れてtext2imageを何度か行い、よさげな画像が出るまで繰り返した。

(masterpiece),(highest quality),highres,(an extremely delicate and beautiful),(extremely detailed), solo, Twin Turbo \(umamusume\) wears hoodie, stuffed animal on hoodie, hood down, hooded coat, puffy long sleeves, multicolored jacket, drawstring, black nail polish, black pantyhose under multicolored clothes, ankle boots, yellow footwear. open mouth and smile <lora:UmaDiffusionXL-768x1024:1>

また、Negative promptとして以下のプロンプトを使用した。

watercolor, oil painting, photo, deformed, realism, disfigured, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

得られた画像に対し、iPadとApple Pencilで修正したい箇所を加筆修正し、所望の修正結果が得られるまでimg2imgで生成を行うというプロセスを繰り返した。

結果とか

txt2imgで得られた画像を以下に示す。

Twin Turbo from Uma Musume Pretty Derby, generated by Stable Diffusion

前回の記事ではアグネスタキオンを生成したが、今回はツインターボを生成した。前回に比べて破綻が気になる箇所が多い。この背景として、アグネスタキオンの服装が比較的シンプルである一方ツインターボの服装は装飾が多いことがあると考えられる。

txt2imgではテキストのみで描きたいものを指定する必要があるが、当然装飾が多くなるほどテキストのみで正確に指定することは難しくなる。その結果として、例えばパーカーの模様がおかしいとか、ぬいぐるみの模様が実際と違うといったことが発生していると考えられる。

また、そもそもモデルを生成する際の素材数の差も影響している可能性がある。モデルの中身を確認することはできなかったので推測ではあるが、例えば、Pixivのタグ検索でのヒット数を利用可能な素材数の指標として考えると、執筆時点で"アグネスタキオン(ウマ娘)が19121作品であるのに対し、"ツインターボ(ウマ娘)"タグでは8340作品である。Pixiv上でのヒット数のみで正確な評価は難しいと思われるが、そもそもインターネット上に存在する素材数自体にそれなりに差があると推測することはできるのではないだろうか。

以上のような理由から、生成AIに特徴的である「遠目に見ればそれっぽい」という絵は出力されてはいるものの、前回に比べると細部の破綻が特に目立ったと思われる。

そこで、img2imgにより細部の修正を行っていく。上の画像はツインターボの画像として出力したものではあるが、細部で様々な修正が必要である。例えば、瞳の色は本来青と赤のオッドアイであるところ、生成された画像では両目とも青く塗られてしまっている。そこで、iPadに標準でインストールされている写真アプリのレタッチ機能とApplepencilで下記のように片方を赤く塗る。

txt2imgで生成した画像からimg2img用にiPadで片目を赤く塗りつぶした状態

この状態で同じプロンプトでimg2imgをかけると、以下のように瞳の色がオッドアイになる。ついでにぬいぐるみの部分もなんかいい感じになった。

同じようにして気になる箇所をそれぞれiPadで加筆修正してimg2imgをかけることを繰り返していく。これはどこまでこだわるかという問題でしかない

例によって生成AIらしい、遠目で見ればそれっぽい画像ではある。理屈の上では時間をかければまだリファインできるとは思うが、個人の趣味として行うのでここら辺が体力と気力の限界ということになる。所要時間は大体3から6時間といったところだったと思う。

感想とか

img2imgでの修正によってそれなりの絵を生成できることが確認できた。一方で、修正の際にはiPadの標準の写真アプリではレタッチにかなり限界があるとも感じた。特に拡大が貧弱で、これは細部の加筆修正が必要な時に不便であった。もし本気でやるならもっとちゃんとしたお絵描きアプリを使った方がいいと思う。

前回大体60から70点くらいが限界という話を書いたが、今回も素人目には大体それくらいが限度っぽいなという感じだった。一方で、70点に至ろうとする道を進む上では絵を描けるスキルや環境が効いてくるとも感じた。img2imgでの修正は結局のところ部分的には絵を描くという行為であるから、絵が描けるのであれば当然そのプロセスが容易になると思う。

また一方で、前回と今回いずれも、最初のステップとしてtxt2imgで出した絵を使うのが不可欠であった。例えば、自分でラフに描いた絵をimg2imgにかけることができるのであれば、より自分が求めるイラストが得られるようになる可能性がある。また、絵を最初に自分で描かないのであれば、求めたポーズを描き出すことに特化したLoRAを使ったりOpenPoseのような拡張機能で所望のポーズの画像を生成することができれば、こちらも同様により求めるイラストに近い画像が得られるようになる可能性がある。また、生成した画像の加筆に特化したモデルを利用できれば、さらに様々な表現が可能になる可能性もある。こうした点は今後挑戦していきたい。