「誰もが思いのまま創作を」“画像生成AI”が描く未来 無料公開した企業テレビ初取材[2022/11/04 23:30]

言葉から画像を作り出す『画像生成AI』を発表し、世界を席巻している企業に、日本のテレビとして初めて独占取材しました。

画像生成AIとは、キーワードを打ち込むと、大量の画像と言葉を結びつけて学習したAIが、そのイメージにあった画像を作り出してくれるものです。

そんな画像生成AIのなかで、いまや世界で100万人が利用する大人気のAIが『Stable Diffusion』です。

今まで大手IT企業は、こうした高性能なAIを企業秘密として厳密に管理してきましたが、Stable Diffusionを開発した企業『Stability AI社』は全世界に無料で公開しました。

高性能なAIをタダで使えるということで、人気は爆発的に広まり、公開からわずか2カ月たった先月、150億円の出資を受けました。

AI界の常識を破り続ける企業を率いる社長とは、一体どんな人なのでしょうか。

イギリス・ロンドンの街角にある小さなビルに向かいました。

エマード・モスタークCEO:「Stable Diffusionは、世界中で大好評を博しています。人々は、このAIを利用して驚くようなものを生み出しています。今や人々は、自由に機能を拡張して、驚くようなものを生み出しています」

エマード・モスタークCEO自身が、そのすごさを教えてくれました。

エマード・モスタークCEO:「まずは言葉を入力します。例えば“ビッグベン”“ロンドンにある”“浮世絵風”“北斎が描いたような”…『作る』を押せば、言葉から絵を作り上げることができます」

キーワードを与えれば、わずか4秒で世界に1枚の画像が生み出されます。

エマード・モスタークCEO:「多くの言葉で作ると、例えば“傑作”“高解像度”“コーヒーカップ”などを書いて作れば…『コーヒーを飲む女性』。“金髪”と入力すれば、彼女の髪は金髪になります。このように何度も繰り返して、望みのものを作り出せます」

なぜAIを無料で世界に公開したのでしょうか。そこにはある思いがありました。

エマード・モスタークCEO:「このAIは私たちからの贈り物です。国や企業を問わず歓迎します。私たちは、インターネットやデータベースを運用するサービスと似ています。自由に利用してもらい、システムが改善され続けるために公開しているのです。つまり、ウィキペディアのようなものです。これは未来のために技術を世界に広める新しいモデルです。独占ではなく、開かれたインフラになりたい。今、ユーザーが100万人から10億人に増え、私たちは世界で最も重要な企業の一つになれると信じています。注目を集めて広告を提供するのではなく、人々と手を携え、真の価値を提供したい。目指すのはAIの民主化です」

一つの企業が独占・管理するAIではなく、誰もが自由に作りたいものを作れるようにすることが大切なのだと、エマードさんは語ります。

今や世界中のユーザーがStable Diffusionを使って、様々な個性を持つ画像生成AIへと改良しています。

なぜここまで人気になったのか。日本のブームの火付け役にもなったUXデザイナー・深津貴之さんは語ります。

UXデザイナー・深津貴之氏:「例えば一晩回して、1000枚画像作れるようにする。カスタマイズをプログラマーがプログラムを組める場合なら、色々できる。今回、Stable Diffusionが世の中に大きく影響を与えたのは、オープンにして誰もが触れるようにしたこと。これは活版印刷や3Dプリンター技術が万人に開放されたようなもの。良い方向にも悪い方向にも大きなインパクトが出るのでは」

誰でもAIで画像が作れるようになった一方で、新たな問題も起きました。

台風15号による静岡の水害として投稿された画像。実はStabile Diffusionを使って、あたかも街が水没しているように作られ拡散した、フェイク画像でした。

エマードさんは対抗策として、フェイク画像を見分ける技術開発に乗り出しているといいます。

エマード・モスタークCEO:「フェイク画像は、何年も前から問題になっています。ディープフェイクの技術は、何年も前から存在していましたからね。実は、これらの方がはるかに高精度に作れます。Stable Diffusionはたった2GBのファイルで、高度な画像を生成できるような大容量のファイルではありません。どんな画像であっても、フェイクかどうかを認識する技術は、誰でも簡単に利用できるべきです。この画像生成AIはPhotoshopのようなツールの延長線上にあります。私たちは、フェイクかを見分けるため、企業と提携して技術開発をしています。Stable Diffusionでは、ディープフェイクを認識するために10倍もの技術を費やしています。無料公開した私たちの技術が世界に普及すれば、人々は何がリアルで何がフェイクか気付くでしょう。画像が本物かを確認する必要を我々が学習したのです。私たちはシステムにフェイク判別機能を追加する予定です」

AIの専門家、東京大学の松尾豊教授も画像が事実と信じられた時代は終わると話します。

松尾豊教授:「AIで生成した写真が、本物の写真と区別がつかなくなる時代が来ることは、当然予想できた。例えば文章だと『誰かがこういう事言っている』という情報があった時に、それは本当なのかと疑う。これを誰が言っているのか、どのメディアが言っているのかによって、それを信じるか信じないか決めることをやっている。この写真は出元がどこなのか、信頼できるのかを合わせて判断するようになってくる」

一方で、新しいAI技術を過度に規制しすぎることも良くないといいます。

松尾豊教授:「新しい技術は、色んな可能性もあるし、同時に色んな心配事もあることは当たり前だと思う。日本の技術でなくても、日本が先行してやっていくことによって、その先にあるビジネスチャンスを得ることは可能だと思う」

このAI技術へのアクセスの約3分の1は、日本からだといいます。

アニメファンでもあるエマードさんも、日本の利用者に期待を寄せています。

エマード・モスタークCEO:「昔から日本に行くのが好きで、投資の仕事をしていました。一時は、世界的なビデオゲーム投資家だったこともあるんですよ。セガサミーや任天堂などに投資しました。日本には豊富な文化遺産やコンテンツ資産があります。ポケモンやアンパンマンなどは日本特有のものです。日本人は創作が大好きです。Stable Diffusionの機能を大々的に押し広げる地域の一つが、まさに日本だと考えています」

バングラデシュ出身のエマードさんは、2年前にStability AI社を起業。きっかけは自身の障害でした。

エマード・モスタークCEO:「私はアファンタジアという症状を持っています。世界の人口の約1%が持つ、『脳内でイメージが作れない』という症状です。例えば『砂浜をイメージしろ』と言われても、脳内にぼんやりとした感覚が生まれるだけ。だから、脳内の感覚をスクリーン上で表現できる、この技術は私にとって素晴らしいものです。おかげで視覚化できるようになったのです。私のような症状は極端だとしても、『自分は創作などできない』と思い込んでいる人がたくさんいます。(Q.でも、アートに興味ある人は少ないのではないか)鋭い質問ですね。このAIはアート生成装置ではなく、画像生成装置です。人々はコミュニケーションを取りたいものです。例えばSnapchatやTikTokも、同じようなコミュニケーションであり、そこには創造性があります。Stable Diffusionは糸口にすぎません。私たちは想像を作る技術を提供していきます」

例えばプレゼンテーションのスライドも、キーワードを与えればデザインしてくれるといった、ビジネス面にも使えるAIを開発したいといいます。

画像生成AIのオープンソース化によって、パラダイムシフトが起きている今、エマードさんが描く未来とは。

エマード・モスタークCEO:「私が思い描く未来とは『スタートレック』に登場する『ホロデッキ』や、『レディ・プレイヤー1』のように、言葉で説明できるものはすべて、思いのままに作ることができる世界を5年以内に作りたい。誰もが創作し、共有する、究極のコミュニケーション手段になるでしょう」

近く、画像だけでなく“文章から映画が作られる未来”も訪れるといいます。

エマード・モスタークCEO:「Stable Diffusionは、弊社初のモデルです。今後、音声や動画、3Dの生成モデルなど、さらに良いモデルを開発し、リリース予定です。日本の消費者は、こうしたモデルに日本の文化コンテンツを使いながら、インタラクティブに交流したり、創作したりするのではないでしょうか。私たちが新しいモデルをリリースすれば、そうした未来をさらに加速させます。(Q.つまり、テレビ局は用なしになりますね)いえ、必要ですよ。今後も、色々な仕事があるでしょう。つまり、人間に取って代われるものなどありません。世間では、こうした技術が職を奪うと言いますが、歴史的に見ると、技術は人間の職や能力を拡張してきました。新しい世界を作れる自信があるのは、技術を独占せず公開しているからです。未来への道は、ようやく人々の前に敷かれたのです」

こちらも読まれています