OpenAI a annoncé le lancement prochain de DALL-E 3, la prochaine version de son modèle d'IA de génération d'images. Cette annonce a été accueillie avec une certaine fanfare : Il y a eu un très grand saut de qualité entre DALL-E et DALL-E 2, et ce qu'OpenAI a montré de DALL-E 3 est ... meilleur ? Plus d'informations à ce sujet à la fin. Quoi qu'il en soit, cette annonce m'a fait réfléchir à ce qu'est l'IA, à ce qu'est le business de l'IA et à quel point OpenAI est loin de gagner de l'argent.
Tout d'abord, l'IA : il s'agit de plusieurs choses à la fois. Au départ, il s'agit simplement d'une série d'équations algébriques linéaires ; si vous le vouliez vraiment, vous pourriez écrire l'intégralité de ChatGPT sous la forme d'une seule équation mathématique, mais elle serait d'une longueur époustouflante. Il existe un excellent article de Stephen Wolfram que je vous encourage tous à lire et qui aborde en profondeur les rouages de l'IA, mais je définirai rapidement l'IA comme des outils probabilistes, entraînés sur de grandes quantités de données, qui peuvent reproduire les résultats de tâches complexes. Ce qu'il faut retenir ici, c'est que nous pouvons entraîner l'IA à effectuer des tâches pour lesquelles nous ne disposons pas d'une bonne théorie, comme écrire un texte ou identifier un chat. Un chat ne peut pas être décrit à l'aide de mathématiques pures, mais un modèle mathématique pur (via l'IA) peut identifier un chat. L'IA, en particulier l'IA générative, comporte également une part d'aléatoire qui est intentionnellement introduite par les concepteurs afin d'encourager la diversité des résultats. Il convient de souligner que l'apprentissage de l'IA nécessite beaucoup de travail humain - la mise en forme des données pour qu'elles puissent être utilisées par l'IA est un processus très manuel.
Cela nous amène à la deuxième caractéristique de l'IA : un outil de médiation du travail humain. Cette médiation prend principalement la forme d'une automatisation (remplacement d'une tâche humaine par une machine), d'une déqualification (simplification de la tâche), d'une fragmentation (décomposition de tâches complexes en petites tâches simples) et d'une précarisation (transformation d'une profession qualifiée en quelque chose qui peut être pris comme un emploi). Les éléments d'automatisation et de déqualification sont les plus évidents avec des outils de génération d'images comme DALL-E 3 - toute la stratégie de marque tourne autour de la capacité de n'importe qui à créer des images qui, autrement, auraient nécessité une grande compétence. Mais DALL-E fragmente également le réservoir de main-d'œuvre : Des entreprises comme open AI s'appuient sur l'exploitation de la main-d'œuvre dans les pays du Sud pour étiqueter les images.
Enfin, l'IA est aussi potentiellement une source de nouvelles connaissances. J'ai mentionné plus haut que nous pouvons entraîner l'IA à accomplir des tâches sans avoir une compréhension théorique solide de ces tâches. De nombreux scientifiques et universitaires ont déjà démontré que l'utilisation de l'IA peut conduire les humains à une nouvelle compréhension en leur permettant d'abord de modéliser le problème, de trouver des solutions, puis de travailler à rebours à partir de ces solutions jusqu'à une théorie utile. Il ne s'agit pas d'un phénomène particulièrement nouveau ; des personnes font cela depuis au moins 2016 avec certains des premiers travaux sur l'informatique des matériaux, mais c'est très utile pour les groupes qui effectuent ce type de travail sur les connaissances.
Le problème fondamental pour OpenAI est que DALL-E 3 n'est pas un produit. Quelle est l'activité qui va se greffer sur la génération d'images ? La conclusion la plus évidente serait une plateforme d'images en ligne de type Shutterstock, mais ce n'est pas une activité très attrayante (surtout pour la startup la plus médiatisée de la décennie). Shutterstock a réalisé un chiffre d'affaires d'environ 850 millions de dollars l'année dernière. En outre, le coût des marchandises vendues (essentiellement le coût des images) n'était que d'environ 350 millions de dollars ; la majeure partie de ses coûts provenait du marketing, des ventes et de l'administration générale. Combien OpenAI a-t-elle dépensé pour DALL-E 3 ? C'est un peu difficile à dire, mais la formation de ChatGPT 4 a coûté plus de 100 millions de dollars. Il est difficile d'imaginer qu'OpenAI a dépensé moins pour DALL-E 3, surtout si l'on tient compte du fait que le traitement des images nécessite beaucoup de données et de main-d'œuvre. Même si l'on s'attend à ce qu'OpenAI puisse s'emparer de toutes les activités de Shutterstock et les réaliser beaucoup mieux, ce n'est toujours pas très attrayant.
Ce n'est certainement pas le plan d'affaires qu'OpenAI a à l'esprit, mais ce que je veux dire ici, c'est que l'IA avec des capacités spectaculaires n'a pas nécessairement une bonne proposition de valeur. L'IA crée de la valeur de deux manières : premièrement, par l'automatisation du travail (les quelque 350 millions qu'OpenAI pourrait théoriquement économiser sur Shutterstock) et deuxièmement, par la génération de connaissances (la valeur générée en accélérant la R&D ou en nous poussant vers de nouvelles découvertes). Ces plateformes de génération d'images n'offrent pas vraiment ce type de valeur. Cette absence de valeur claire m'a laissé sceptique quant à la capacité d'OpenAI à perturber des entreprises réelles dans un avenir proche.
Tout cela suppose que les images produites par DALL-E 3 sont aussi bonnes que les images de stock sur Shutterstock. Or, ce n'est pas le cas. L'annonce de DALL-E 3 a été accompagnée d'une série d'images, qui ont probablement été sélectionnées - j'essaierais certainement de faire de mon mieux lors du lancement d'un nouveau produit. Pourtant, même ces images sélectionnées présentent de nombreux défauts caractéristiques des images générées par l'IA - des détails étranges et des problèmes qu'un humain ne se tromperait jamais. OpenAI affirme avoir rendu le logiciel beaucoup plus facile à utiliser, et c'est peut-être le cas, mais on est loin de l'amélioration constatée entre DALL-E et DALL-E 2. Je ne peux qu'en conclure qu'il était trop difficile (ou, de manière plus réaliste, trop coûteux) d'essayer d'entraîner le modèle à éviter ces problèmes. Des personnes soi-disant intelligentes comme Eliezer Yudkowsky appellent à des frappes de drones sur les centres de données en raison de la menace d'une amélioration trop rapide de l'IA, mais la startup d'IA la mieux financée au monde n'arrive pas à faire dessiner un téléphone avec précision à l'IA. Nous nous en sortirons tous très bien.