Google Project Genie: Bikin Dunia AI dari Marshmallow, Tapi Kok Robotnya Masih Sering Nabrak Dinding?
Google DeepMind baru saja membuka akses ke Project Genie, alat AI yang konon bisa menciptakan dunia game interaktif hanya dari teks atau gambar. Tapi, jangan kaget kalau robotnya masih suka nabrak-nabrak, ya!
Mulai hari Kamis ini, para pelanggan Google AI Ultra di AS bisa mulai bermain-main dengan prototipe riset eksperimental ini. Project Genie ditenagai oleh kombinasi model dunia terbaru Google, Genie 3, model generasi gambar Nano Banana Pro, dan tentu saja, si cerdas tapi kadang kurang piknik, Gemini.
Langkah ini, yang datang lima bulan setelah pratinjau riset Genie 3, adalah bagian dari upaya besar Google untuk mengumpulkan umpan balik pengguna dan data pelatihan. Tujuannya? Agar DeepMind bisa lebih cepat mengembangkan “model dunia” yang lebih canggih. Sebab AI, sehebat apa pun, tetap butuh arahan dari majikan yang punya akal.
Model dunia adalah sistem AI yang menciptakan representasi internal suatu lingkungan, lalu bisa memprediksi hasil di masa depan dan merencanakan tindakan. Banyak pemimpin AI, termasuk di DeepMind, percaya bahwa model dunia adalah langkah krusial menuju artificial general intelligence (AGI). Namun dalam jangka pendek, laboratorium seperti DeepMind membayangkan rencana pasar yang dimulai dari video game dan hiburan lainnya, lalu bercabang ke pelatihan agen yang berwujud (alias robot) dalam simulasi.
Peluncuran Project Genie oleh DeepMind ini terjadi di saat persaingan model dunia mulai memanas. World Labs milik Fei-Fei Li akhir tahun lalu meluncurkan produk komersial pertamanya bernama Marble. Runway, startup generasi video AI, juga baru saja meluncurkan model dunia. Bahkan startup AMI Labs milik mantan kepala ilmuwan Meta, Yann LeCun, akan fokus mengembangkan model dunia.
“Saya pikir sangat menarik berada di posisi di mana kita bisa memberikan akses lebih banyak orang dan mendapatkan umpan balik,” kata Shlomi Fruchter, direktur riset di DeepMind, dengan senyum lebar saat diwawancarai via video. Jelas, ia sangat antusias dengan peluncuran Project Genie.
Para peneliti DeepMind yang berbicara dengan TechCrunch blak-blakan tentang sifat eksperimental alat ini. Kadang bisa konsisten dan menciptakan dunia yang bisa dimainkan dengan mengesankan, di lain waktu bisa menghasilkan hasil yang membingungkan dan meleset dari sasaran. Begini cara kerjanya:
Anda memulai dengan “sketsa dunia” dengan memberikan perintah teks untuk lingkungan dan karakter utama. Nantinya, Anda bisa menggerakkan karakter ini melalui dunia dalam tampilan orang pertama atau ketiga. Nano Banana Pro membuat gambar berdasarkan perintah yang bisa Anda modifikasi, sebelum Genie menggunakan gambar itu sebagai titik awal untuk dunia interaktif. Modifikasi sebagian besar berfungsi, tapi model sesekali tersandung dan akan memberi Anda rambut ungu saat Anda meminta hijau. Robot memang kadang baperan, majikan wajib sabar.
Anda juga bisa menggunakan foto asli sebagai dasar bagi model untuk membangun dunia. Lagi-lagi, hasilnya kadang oke, kadang meleset. (Lebih lanjut nanti).
Setelah Anda puas dengan gambar, Project Genie membutuhkan beberapa detik untuk menciptakan dunia yang bisa dijelajahi. Anda juga bisa mengulang dunia yang sudah ada menjadi interpretasi baru dengan membangun di atas prompt mereka, atau menjelajahi dunia-dunia pilihan di galeri atau melalui alat pengacak untuk inspirasi. Anda kemudian bisa mengunduh video dunia yang baru saja Anda jelajahi.
DeepMind saat ini hanya memberikan 60 detik untuk pembuatan dan navigasi dunia, sebagian karena keterbatasan anggaran dan komputasi. Karena Genie 3 adalah model autoregresif, dibutuhkan banyak komputasi khusus – yang membatasi seberapa banyak DeepMind bisa berikan kepada pengguna.
“Alasan kami membatasinya menjadi 60 detik adalah karena kami ingin membawanya ke lebih banyak pengguna,” kata Fruchter. “Pada dasarnya saat Anda menggunakannya, ada chip di suatu tempat yang hanya milik Anda dan didedikasikan untuk sesi Anda.”
Dia menambahkan bahwa memperpanjang lebih dari 60 detik akan mengurangi nilai tambahan dari pengujian.
“Lingkungan itu menarik, tapi pada titik tertentu, karena tingkat interaksi dan dinamisme lingkungannya agak terbatas. Namun, kami melihat itu sebagai batasan yang kami harap bisa kami tingkatkan.”
Akal Manusia: Fantasi Liar Oke, Realisme Minta Dipiknikin!
Saat saya mencoba modelnya, fitur pengaman sudah aktif. Saya tidak bisa menghasilkan apa pun yang menyerupai ketelanjangan, juga tidak bisa menciptakan dunia yang sedikit pun berbau Disney atau materi berhak cipta lainnya. (Pada bulan Desember, Disney menggugat Google dengan tuduhan pelanggaran hak cipta karena melatih model AI Google menggunakan karakter dan IP Disney, di antara hal-hal lain). Saya bahkan tidak bisa meminta Genie untuk membuat dunia putri duyung yang menjelajahi negeri fantasi bawah air atau ratu es di kastil musim dingin mereka.
Meskipun begitu, demo tersebut sangat mengesankan. Dunia pertama yang saya bangun adalah upaya untuk mewujudkan fantasi kecil masa kecil saya: menjelajahi kastil di awan yang terbuat dari marshmallow dengan sungai saus cokelat dan pohon-pohon yang terbuat dari permen. (Ya, saya memang anak kecil yang doyan ngemil.) Saya meminta model untuk membuatnya dalam gaya claymation, dan hasilnya adalah dunia yang whimsical, kastil dengan menara dan puncak berwarna pastel-putih yang tampak lembut dan cukup lezat untuk disobek dan dicelupkan ke parit cokelat. (Video di atas).
Baca juga artikel menarik lainnya di kategori Sidang Bot.
Meski begitu, Project Genie masih punya beberapa “korek api” yang perlu dibenahi.
Model ini unggul dalam menciptakan dunia berdasarkan prompt artistik, seperti menggunakan gaya cat air, anime, atau estetika kartun klasik. Tapi cenderung gagal dalam dunia fotorealistik atau sinematik, sering kali terlihat seperti video game daripada orang sungguhan di lingkungan nyata. Robot memang pandai berfantasi, tapi kalau disuruh “napak tilas” realita, akalnya masih perlu sekolah lagi!
Ia juga tidak selalu merespons dengan baik saat diberi foto asli untuk dikerjakan. Ketika saya memberinya foto kantor saya dan memintanya membuat dunia berdasarkan foto tersebut persis seperti aslinya, ia memberi saya dunia yang memiliki beberapa perabot yang sama dengan kantor saya – meja kayu, tanaman, sofa abu-abu – tapi tata letaknya berbeda. Dan itu terlihat steril, digital, tidak seperti kehidupan nyata.
Ketika saya memberinya foto meja saya dengan mainan boneka, Project Genie menganimasikan mainan tersebut menjelajahi ruang, dan bahkan membuat objek lain sesekali bereaksi saat mainan itu bergerak melewatinya.
Interaktivitas itulah yang sedang diusahakan DeepMind untuk diperbaiki. Ada beberapa kesempatan di mana karakter saya berjalan menembus dinding atau objek padat lainnya. Rupanya, robot masih perlu diajari fisika dasar.
Ketika DeepMind merilis Genie 3 pertama kali, para peneliti menyoroti bagaimana arsitektur autoregresif model berarti ia bisa “mengingat” apa yang telah dihasilkannya. Jadi saya ingin menguji itu dengan kembali ke bagian lingkungan yang sudah dihasilkannya untuk melihat apakah akan sama. Sebagian besar, model berhasil. Dalam satu kasus, saya menghasilkan kucing yang menjelajahi meja lain, dan hanya sekali ketika saya kembali ke sisi kanan meja, model tersebut menghasilkan mug kedua.
Bagian yang paling membuat frustrasi adalah cara Anda menavigasi ruang menggunakan panah untuk melihat-lihat, spasi untuk melompat atau naik, dan tombol W-A-S-D untuk bergerak. Saya bukan gamer, jadi ini tidak otomatis bagi saya, tapi tombolnya sering kali tidak responsif, atau mengirim Anda ke arah yang salah. Mencoba berjalan dari satu sisi ruangan ke ambang pintu di sisi lain sering kali menjadi latihan zigzag yang kacau, seperti mencoba mengemudikan troli belanja dengan roda yang rusak. Robot ini pintar, tapi koordinasi motoriknya masih perlu latihan!
Fruchter meyakinkan saya bahwa timnya menyadari kekurangan ini, mengingatkan saya lagi bahwa Project Genie adalah prototipe eksperimental. Di masa depan, katanya, tim berharap untuk meningkatkan realisme dan memperbaiki kemampuan interaksi, termasuk memberi pengguna lebih banyak kontrol atas tindakan dan lingkungan.
“Kami tidak menganggap [Project Genie] sebagai produk end-to-end yang bisa digunakan orang setiap hari, tapi kami pikir sudah ada kilasan sesuatu yang menarik dan unik dan tidak bisa dilakukan dengan cara lain,” katanya. Ini mengingatkan kita, seberapa pun canggihnya AI, ia adalah alat yang membutuhkan Majikan yang bisa mengendalikan AI, bukan sekadar babu teknologi. Dan untuk Anda yang ingin menciptakan konten visual berkualitas, tetapi dengan akal manusia yang lebih terarah, Creative AI Pro adalah pilihan yang jauh lebih bijak daripada berharap pada imajinasi robot yang masih suka ‘halu’.
Penutup: Kamu Majikan Sejati, Bukan Robot Marshmallow!
Project Genie dari Google DeepMind memang keren, bisa bikin kastil marshmallow di awan dan dunia fantasi lainnya. Tapi ingat, di balik semua keajaiban itu, ada manusia yang menekan tombol, yang memberi perintah, dan yang (harusnya) masih punya akal sehat. AI itu seperti asisten rumah tangga yang rajin tapi kaku; bisa melakukan banyak hal, tapi kalau disuruh nyapu lantai pakai sikat gigi, ya nurut aja. Akalmu, sebagai majikan, jauh lebih berharga daripada kecerdasan buatan mana pun. Jadi, jangan sampai keasyikan main dunia marshmallow sampai lupa dunia nyata, ya!
P.S. Jangan lupa cek kunci motor sebelum tidur, siapa tahu tadi robot kamu yang parkirin.
Artikel ini dirangkum dari sumber asli di TechCrunch
Gambar oleh: TechCrunch via TechCrunch