loraにおけるノイズ（ウォーターマーク、　サイン、glaze、mist/mamori）の効果検証

時間なかったら画像と赤文字読んでね

loraにウォーターマーク、サイン、glazeやmist（emamori）は

効果があるか？

個人でノイズ検証をしてみた。

動機

画像生成AIに対抗する手段として紹介されるウォーターマーク、サイン、glaze,mistのノイズ機能だが、公式からはloraに対する効果は示されていない。しかし学習材料となる画像に特殊なノイズをかけているのだから、それらを使用するloraも何らかの影響はあるのでは？と思い、個人で検証してみようと考えた。

（絵にノイズかけてるんだから、loraだってなんかの効果はあるんじゃない？と思ったから）

超要約結果

絵にすげえ分かりやすく毎回線とかマークとか遠目で見ても「あれだ！」って分かる特徴入れるとloraでも再現される。AI絵はそれに振り回される。

glazeとかのノイズもたぶんそこそこ出る。しかし出方は場合によって変わる。でも全体的にモアレっぽいのが出る確率上がるので、AI絵の見た目が悪くなる可能性が高くなる。

サインと薄いウォーターマークはloraでは無視される。

超要約今後のおすすめ

ノイズは結構使えそう。でも今までの学習からウォーターマーク、サインは無視することが上手くなってるかも？

「すげえ目立つ」「やたらはっきりした」ウォーターマーク、サインに＋「glazeやmist」を使っていくのが有用そう。

検証方法

私の作成した絵のみの個人loraをpixaiにて作成（70枚取り込み）

学習素材は下記参照

学習素材にはサイン、特徴的な装飾、ウォーターマークなど以前からの防御措置が入っているものを中心に選ぶ。

さらにその上からglaze、emamoriでノイズをかけたものを中心に取り込みした。

原版は正方形で作っていることが多いので、同じ正方形で出力する。

またt2iだけでは出力画像に偏りが出たため私の画像やパブリックドメインのi2iも作成した。

出力画像についてはt2i、i2iそれぞれ混ぜて説明する。i2i出力画像に目立つことは後述する。

（自分比でいっぱい読み込ませた。50枚以上あればいいだろくらい。ノイズなしの普通の画像も半分くらい入れた。ほとんどの絵描きが自分の絵全部にノイズかけてるわけじゃないので、そこそこノイズありをwebに掲載してる絵描きの絵を他人が勝手にloraにしたらどうなるかの疑似実験。でも自分で読み込ませてるのに途中気分が悪くなって2回吐いた。マジしんどかった）

学習素材例

使用したウォーターマーク（透かし模様）例

学習画像についての補足:　読まなくてもいいよ

・男性の人物画がほとんどで子供、女性の絵は数枚。

・油彩厚塗り風で顔周りー上半身のみ仕上げがほぼ。他は省略が多い。

・サインは中心付近、顔付近の切り取れない場所にペンネーム「田中たみよ」「田中たみ狸」を大きく入れている。また日付けもある。

・背景はほぼ単色。二本線をはっきり入れるのは、J.C.ライエンデッカーのオマージュ。彼が雑誌表紙絵にタイトル線として入れていたものを模して好きでちょくちょく入れている。背景の丸の模様も同様。

・二本直線以外の装飾は少ない。

検証 ①出力画像数と分類

総試行回数 60回　出力画像数 240枚

使用モデル

SD1.5イラスト系モデル1、SD1.5イラスト系モデル2

SD1.5実写系モデル 1、SD1.5実写系モデル2

それぞれ出力後、学習素材を元とした完成度別に仕分けし、解析する。
ベースモデルは適応loraの多いSD1.5系を使用した。

t2i,i2iともプロンプトは「1man,handsome」。画面が暗すぎるなどの時は +αでbrightなど追加。
i2i強度は0.2~1.0で調整し完成度の高いものを目指した。

完成度の高いもの　160枚
完成度の低いもの　 80枚　おおよそ

（これも50回以上200枚以上あればいいだろ精神。いっぱい出した。完成度とかぱっと見。あと「私が描いた男の顔をしている」「私が好きな男の顔をしている」が判断基準。）

t2i出力完成度の高い画像例（240枚中160枚　約66％）

t2i出力完成度の低い画像例（240枚中80枚　約33％）

サインの出力画像（240枚中７枚）

（〇と△見づらかったらごめんね。拡大して見てね）

②出力画像の解析

②-1 分類

学習画像が絵画風のためかモデルによって出力の完成度に大きく差が出た。

イラスト系モデルは完成度の低い画像しか得られなかった。
今回のloraは実写系モデルでないとt2i,i2iとも有意な結果が得られなかった。

相性のよくないイラスト系モデルでは、元画像より著しく完成度の劣る画像群になりやすかった。

世間に流通するloraに合わせて、低い完成度のものは主な解析から除く。

②-2全体解析

t2i,i2iとも出力画像の人物の背景に直線や直角や丸、またはそれらを用いた背景画像が頻出した。※出力画像例の赤〇
線や直角から発展して、背景に建物や床や柱なども出現した。

明らかに学習画像に多く含まれる2本線の復元と考えられる。学習画像に2本線が必ず入っていたわけではないのに、出力画像に7 −8割くらいで出現した。

さらに出力画像によって、はっきりしない模様やモヤのようなモアレが出現した。※出力画像例の緑△

服のシワや模様状ではあるが、片側だけ袖の一部のみだけ、など出現が限られている。また全体にモアレが出現した画像もあった。
モアレはモデルにより多く出るもの、ほとんど出ないものがあった。
出現するモアレはモデルごとに共通性があった。特にイラスト系モデルでは１，２とも謎の模様が続出した。※完成度の低い画像例右上参照

学習画像に細かな模様が入ったものはほぼない。
柄が出るとすればモデルデータからの再現、私が絵に用いた筆致や陰影・ハッチング技法の再現、それか学習素材からのノイズの再現である。

しかし出現はランダムであり、また特徴がどこから来たかを生成AIは示さないので推測。

サイン、日付は完全な形ではほぼ出力しなかった。サイン、日付と思わしきものが出力したのは240枚中7枚。※サイン出力画像に完成度低の白地に青字の画像を足して全部で7枚。

ウォーターマークはモアレに紛れてか明確な復元は1枚も確認できなかった。

（個人的に面白かったのは完成度低の方に入れた、線とサインのなごりらしい白背景に青文字の風景写真風。顔は難しいからってそこだけピンポイントかよと爆笑した。しかし完成度低の方でもぼやっとしても「私が好きそうな顔」がバンバン出ていてぞっとした。やめろよマジでとなった）

i2i元画像

i2i出力画像例

emamoriのノイズの再現

②-3 i2i解析

自撮り写真とパブリックドメインである「ナポレオンの肖像画4種」「ウォーターハウスの人魚の絵」を元画像としてloraを使用したi2iに用いた。
※前述どおり写実、実写系モデルでの完成度が高かったため、写実的な絵画を選んだ。

i2iの方がt2iより完成度の高い画像になりやすかった。また「私が描きそうな顔」「好きな顔」を要素として再現していた。

直線直角の復元はt2i同様、高い頻度で見られた。※赤〇参照

t2iより出力画像にはっきりした模様や柄が出現しやすかった。※緑△参照

また完成度の低い出力も含め、顕著にemamori由来らしいノイズを再現したものがあった。emamoriはi2iに効果を発揮するのは事実だった。

このことより、出力画像に現れたノイズはglazeやemamori由来のものがあると分かる。 △も上掛けノイズの復元である可能性が高くなった。

まとめ

直線直角はモデルを変えても出力全体を通して一貫したので、学習画像に多く入れた背景の二本直線を反映したものと考えられる。線としてだけではなく直角のビルや建物として出力したものもあった。どちらにしろ線の影響下にあると予想される。

学習画像に多く含まれる決まった特徴のある濃くはっきりした大きなマークは、t2i,i2iとも大きく影響を与えることが分かった。

またglazeなどのノイズはloraとしてまとめても出力時にモアレ状態や模様、装飾などに現れる可能性がある。
i2iに効果のあるmist（emamori）はi2i時に分かりやすく復元されることがある。
これらは生成する際に絵の復元と共に上掛けされたノイズの復元もしてしまうからではないかと考えられる。

t2i,i2iはそれぞれノイズの出現率が異なった。i2iの方がノイズの影響を受けやすかった。

サイン、ウォーターマークはこのloraでは再現性が薄く、ほぼ出力しなかった。

しかしノイズは油彩のタッチを歪みや模様として表現して出力した可能性もある。

今回の実験からは模様の由来がどこからとは確定できないため、タッチ再現の可能性を否定できない。とはいえi2iにemamori由来と思われる模様が出力されたことより、上掛けのノイズは出力されないとは考えづらい。

それぞれの複合もしくは顕著なものが特徴としてモアレ、模様、ノイズとして出力されたと考えられる。

感想

loraの自分の絵柄？好きな顔の再現度が高くてびっくりした。え？そんなにちゃんと出る？と思った。マジで。そして趣味で入れていた 2本線や丸の背景も影響が、ばっちり出まくってそれも同様にびびった。ノイズもやっぱ効果あんじゃん！で嬉しかった。いやーloraに無意味ってなったら嫌だなあって。かけるの手間ではあるので。

2本線は他の人の絵に見られない特徴だから無視されると思っていたけれど「他にはないから出力される」だったのかもしれない。へー。
意外に強力なマークだったので、毎回律儀に入れていたサインや日付が全然生成AI画像に出なかったので、2本線をお手本にサイン、ウォーターマークを考えなすことにする。（位置の固定、濃さ、太い線や太い文字を使うとか）

とにかく出力画像全体にノイズの効果があったのは大きな収穫。よかった。
でもこれはあくまでも一個人の結果なので、信憑性はどうかな？で分からない。

でもなんか謎の模様がたびたび出たので、ノイズの影響ではない！と言い切るのは難しいと思う。
目視はしづらくとも、生成AIを用いた時にノイズも何らの表現の一部として再現されてるんでしょう。
ので、生成AIによるlora学習を妨げるのにもノイズは結構使えそう。

今現在（2024/10/25）生成AIは学習量からサイン、ウォーターマークは無視することが結構上手くなってるのかも。
だからそれらは著作者の権利を表すものとして使ってもらって、さらに学習を避けさせる、出力にノイズを生じさせるものとしてglazeやmistを使っていくのは有効だと思う。
みんなもやってみてね！
ではまたどこかで！

2024/10/25　田中たみ狸

おまけ

ノイズを含んだloraでノイズのある絵をi2iしたらどうなるかな？

ぱっと見はよさそうだけど、上の実験でもノイズが出やすかった背景はもちろん、拡大すると大事な顔にもノイズが乗りまくる。

真ん中とかクラックみたいなのが額に出てしまっている。

ノイズのせいか他では再現できていた「私の好きな男の顔」の出力が弱い。口元が笑っていない。
絵としてダメじゃん！な出来です。
i2iではサイン残るので、こっちにはサインやウォーターマークは有用かな？です。

loraにおけるノイズ（ウォーターマーク、 サイン、glaze、mist/mamori）の効果検証