OpenAI mengumumkan pelancaran DALL-E 3 yang akan datang, versi seterusnya model AI penjanaan imejnya. Pengumuman ini telah dipenuhi dengan beberapa peminat: Terdapat lompatan kualiti yang sangat besar antara DALL-E dan DALL-E 2, dan apa yang ditunjukkan oleh OpenAI dari DALL-E 3 adalah ... Lebih? Lebih lanjut mengenai perkara ini pada akhirnya. Namun, pengumuman ini membuat saya banyak berfikir tentang apa itu AI, dan apa sebenarnya perniagaan AI - dan sejauh mana OpenAI sebenarnya menjana wang.
Pertama, AI: Ia adalah beberapa perkara yang berbeza sekaligus. Pada garis dasar, ia hanya satu siri persamaan algebra linear; jika anda benar-benar mahu, anda boleh menulis keseluruhan ChatGPT sebagai persamaan matematik tunggal, walaupun ia akan menjadi panjang. Terdapat kertas kerja yang hebat oleh Stephen Wolfram bahawa saya menggalakkan anda semua untuk membaca yang benar-benar masuk ke dalam kerja AI, tetapi saya akan dengan cepat menentukan AI sebagai alat probabilistik, dilatih pada sejumlah besar data, yang dapat meniru output tugas yang kompleks. Perkara penting yang perlu diambil di sini ialah kita boleh melatih AI untuk melaksanakan tugas yang kita tidak mempunyai teori yang baik untuk, seperti menulis teks atau mengenal pasti kucing. Kucing tidak boleh digambarkan menggunakan matematik tulen, tetapi model matematik tulen (melalui AI) boleh mengenal pasti kucing. Terdapat juga tahap rawak dalam AI, terutamanya AI generatif, yang sengaja diletakkan di sana oleh pereka untuk menggalakkan kepelbagaian hasil. Perlu diingat bahawa latihan AI mengambil banyak tenaga kerja manusia - mendapatkan data itu ke dalam bentuk yang boleh digunakan oleh AI adalah proses manual.
Itu membawa dengan baik ke dalam perkara kedua yang AI adalah: alat untuk menjadi pengantara buruh manusia. Pengantaraan ini terutamanya datang dalam bentuk mengautomasikan (menggantikan tugas manusia dengan mesin), deskilling (menjadikan tugas lebih mudah), memecahkan (memecahkan tugas kompleks besar menjadi tugas mudah kecil), dan kasualisasi (mengubah sesuatu dari profesion mahir menjadi sesuatu yang boleh diambil sebagai pekerjaan). Elemen automasi dan deskilling paling jelas dengan alat penjanaan imej seperti DALL-E 3 - keseluruhan penjenamaan berkisar pada keupayaan sesiapa sahaja untuk mencipta imej yang sebaliknya akan mengambil kemahiran yang hebat. Tetapi DALL-E juga memecahkan kumpulan buruh: Syarikat seperti AI terbuka bergantung kepada eksploitasi buruh di Selatan Global untuk menandakan imej.
Akhirnya, AI juga berpotensi menjadi sumber pengetahuan baru. Saya sebutkan tadi bahawa kita boleh melatih AI untuk menyelesaikan tugas tanpa pemahaman teori yang kukuh mengenai tugas-tugas tersebut. Ramai saintis dan ahli akademik telah menunjukkan bahawa penggunaan AI boleh membawa manusia kepada pemahaman baru dengan membolehkan mereka untuk memodelkan masalah terlebih dahulu, mencari penyelesaian, dan kemudian bekerja ke belakang dari penyelesaian tersebut kepada teori yang berguna. Ini tidak begitu baru; Orang ramai telah melakukan ini sejak sekurang-kurangnya 2016 dengan beberapa kerja terawal mengenai maklumat bahan, tetapi sangat berharga bagi kumpulan yang melakukan kerja pengetahuan seperti ini.
Isu asas untuk OpenAI ialah DALL-E 3 bukan produk. Apakah perniagaan yang akan duduk di atas penjanaan imej? Kesimpulan yang paling jelas ialah platform imej dalam talian gaya Shutterstock, tetapi itu bukan perniagaan yang sangat menarik (terutamanya untuk permulaan yang paling digembar-gemburkan dalam dekad ini). Shutterstock menghasilkan kira-kira USD 850 juta tahun lepas. Lebih-lebih lagi, kos barangan yang dijual (kebanyakannya, kos imej) hanya kira-kira USD 350 juta; Bahagian yang jauh lebih besar dari kosnya berasal dari pemasaran, jualan, dan pentadbiran am. Berapakah perbelanjaan OpenAI untuk DALL-E 3? Agak sukar untuk dikatakan, tetapi ChatGPT 4 mengambil lebih daripada USD 100 juta untuk berlatih. Sukar untuk membayangkan bahawa OpenAI membelanjakan lebih sedikit untuk DALL-E 3, terutamanya memandangkan sifat pemprosesan imej yang intensif data dan buruh. Walaupun anda menjangkakan bahawa OpenAI boleh mengambil semua perniagaan Shutterstock dan melakukannya dengan lebih baik, ia masih tidak begitu menarik.
Itu pastinya bukan rancangan perniagaan OpenAI dalam fikiran, tetapi perkara yang saya buat di sini ialah AI dengan keupayaan percikan tidak semestinya mempunyai cadangan nilai yang baik. AI mencipta nilai dalam dua cara: pertama, dari automasi buruh (kira-kira 350 juta yang OpenAI secara teorinya dapat menjimatkan Shutterstock) dan kedua, dari penjanaan pengetahuan (nilai yang dihasilkan dengan mempercepatkan R &D atau mendorong kita ke arah penemuan baru). Platform penjanaan imej ini tidak benar-benar menawarkan nilai seperti itu. Kekurangan nilai yang jelas ini menyebabkan saya ragu-ragu bahawa OpenAI akan benar-benar mengganggu perniagaan sebenar tidak lama lagi.
Semua ini mengandaikan bahawa imej yang dihasilkan oleh DALL-E 3 adalah sebaik imej stok pada Shutterstock. Walau bagaimanapun, mereka tidak. Pengumuman DALL-E 3 datang dengan sekumpulan imej, yang mungkin telah disusun - saya pasti akan cuba meletakkan kaki terbaik saya ke hadapan apabila melancarkan produk baru. Namun, walaupun imej yang disusun ini mempunyai banyak kelemahan ciri imej yang dihasilkan AI - butiran dan isu aneh yang tidak akan salah oleh manusia. OpenAI mengatakan ia telah menjadikan perisian lebih mudah digunakan, dan mungkin begitu, tetapi tidak ada tempat berhampiran peningkatan yang dilihat dari DALL-E hingga DALL-E 2. Saya hanya dapat menyimpulkan bahawa terlalu sukar (atau, lebih realistik, terlalu mahal) untuk cuba melatih model untuk mengelakkan masalah ini. Kononnya ada orang pintar seperti Eliezer Yudkowsky yang menyeru serangan dron ke pusat data kerana ancaman AI bertambah baik terlalu cepat, tetapi permulaan AI yang dibiayai terbaik di dunia tidak boleh mendapatkan AI untuk menarik telefon dengan tepat. Kita semua akan baik-baik saja.