OpenAIは、画像生成AIモデルの次期バージョンであるDALL-E 3を発表した。この発表は、いくつかのファンファーレで迎えられました:DALL-EとDALL-E 2の間には本当に大きなクオリティのジャンプがあり、OpenAIがDALL-E 3から披露したものは......より良いのでしょうか?これについては最後に。それにしても、この発表は、AIとは何か、AIビジネスとは実際にどのようなものなのか、そしてOpenAIが実際にお金を稼ぐにはどれほどの距離があるのかについて、私に多くのことを考えさせた。
まずAIだが、これは一度にいくつかの異なることを行う。もし本当にその気になれば、ChatGPT全体をひとつの数式として書き出すこともできるだろうが、気の遠くなるような長さになるだろう。AIの仕組みについては、スティーブン・ウルフラムによる素晴らしい論文があるので、ぜひそちらを読んでいただきたいが、ここでは簡単にAIを 「複雑なタスクの出力を再現できる、大量のデータで訓練された確率的ツール」と定義しておこう。ここで重要なのは、AIを訓練することで、文章を書いたり、猫を識別したりといった、私たちが良い理論を持っていないタスクを実行させることができるということだ。猫は純粋数学を用いて記述することはできないが、(AIを介した)純粋数学モデルは猫を識別することができる。また、AI、特にジェネレーティブAIにはランダム性があるが、これは結果の多様性を促すために設計者が意図的に置いているものだ。AIのトレーニングには多くの人間の労力が必要であり、データをAIが使用できる形にするのは非常に手作業なのだ。
このことは、AIが人間の労働を仲介するツールであるという2つ目の点にうまくつながる。この仲介は主に、自動化(人間の作業を機械に置き換える)、デスクリング(作業をより簡単にする)、断片化(大きな複雑な作業を小さな単純作業に分割する)、カジュアル化(熟練した職業から、仕事として手に入れられるものに変える)という形で行われる。DALL-E 3のような画像生成ツールでは、自動化とデスクリリングの要素が最も顕著である。しかし、DALL-Eはまた、労働力のプールを細分化している:オープンAIのような企業は、画像にタグ付けするために、グローバル・サウスにおける労働力の搾取に依存している。
最後に、AIは新たな知識の源となる可能性もある。先ほど、AIを訓練することで、そのタスクに関する確固たる理論的理解がなくても、タスクを完了させることができると述べた。多くの科学者や学者が、AIを使用することで、まず問題をモデル化し、解決策を見つけ、その解決策から有用な理論を逆算することで、人間を新たな理解に導くことができることをすでに実証している。これは特に新しいことではなく、少なくとも2016年以降、材料インフォマティクスの最も初期の研究のいくつかで、人々はこれを行なってきた。
OpenAIの基本的な問題は、DALL-E 3が製品ではないということだ。画像生成の上に載るビジネスは何だろうか?最も明白な結論は、シャッターストック・スタイルのオンライン画像プラットフォームだろうが、それはあまり魅力的なビジネスではない(特に、この10年で最も注目を集めた新興企業にとっては)。シャッターストックは昨年、約8億5000万米ドルを稼いだ。しかも、その売上原価(主に画像の原価)は約3億5,000万米ドルに過ぎず、コストの大部分はマーケティング、販売、一般管理によるものだ。オープンAIは『DALL-E 3』にいくら費やしたのか?ちょっと言いにくいのですが、ChatGPT 4はトレーニングに1億ドル以上かかっています。OpenAI が DALL-E 3 に費やした費用は、特に画像処理のデータと労働集約的な性質を考えると、これより少ないとは考えにくい。OpenAIがShutterstockのビジネスをすべて引き継ぎ、より良いものを提供できると期待したとしても、それほど魅力的なものではありません。
それはきっとOpenAIの考えているビジネスプランではないだろうが、私がここで言いたいのは、派手な能力を持つAIが必ずしも良い価値提案を持っているとは限らないということだ。AIは2つの方法で価値を生み出す。1つ目は労働の自動化(OpenAIがShutterstockで理論上節約できる約3億5,000万ドル)、2つ目は知識の生成(研究開発を加速させたり、新たな発見の方向へ私たちを押し進めたりすることで生まれる価値)だ。これらの画像生成プラットフォームは、そのような価値を提供していない。このように明確な価値がないため、私はOpenAIがすぐにでも実際のビジネスを破壊することになるのか懐疑的になった。
これらはすべて、『DALL-E 3』で制作された画像がシャッターストックのストック画像と同程度に優れていることを前提としている。しかし、そうではない 。DALL-E 3の発表には、おそらく厳選された画像が添付されている。それでも、これらのキュレーションされた画像でさえ、AIが生成した画像の特徴的な欠点、つまり人間なら絶対に間違えないような奇妙なディテールや問題点を多く含んでいる。オープンAIは、ソフトウェアを使いやすくしたと言っているし、そうかもしれないが、『ダレノガレ』から『ダレノガレ2』までの改善にはほど遠い。これらの問題を回避するためにモデルを訓練するのは難しすぎた(あるいは、より現実的な話として、コストがかかりすぎた)と結論づけるしかない。エリエゼル・ユドコフスキーのような頭脳明晰とされる人々が、AIが急速に進歩しすぎる脅威からデータセンターへのドローン攻撃を呼びかけているが、世界で最も資金を集めたAIスタートアップは、AIに正確に電話の絵を描かせることができない。我々は皆、うまくやっていけるだろう。