Ekonomi AILogika PenguasaMasa DepanSidang BotUpdate Algoritma

Grafik AI Ini Bikin Kamu Mikir Robot Mau Ambil Alih Dunia, Padahal Akalnya Masih Perlu Sekolah!

MIT Technology Review Explains: Izinkan kami mengurai dunia teknologi yang rumit dan ruwet ini agar Anda paham apa yang akan terjadi selanjutnya. Anda bisa membaca lebih banyak dari seri ini di sini.

Setiap kali OpenAI, Google, atau Anthropic meluncurkan model bahasa besar (LLM) terbaru, komunitas AI seolah menahan napas. Mereka tidak akan mengembuskan napas lega sampai METR, sebuah lembaga riset nirlaba AI yang bernama lengkap “Model Evaluation & Threat Research,” memperbarui grafik ikonik yang telah memainkan peran besar dalam diskusi AI sejak pertama kali dirilis Maret tahun lalu. Grafik tersebut mengindikasikan bahwa kemampuan AI tertentu berkembang secara eksponensial, dan rilis model terbaru bahkan melampaui tren yang sudah mengesankan itu.

Ini tentu terjadi pada Claude Opus 4.5, versi terbaru dari model Anthropic yang paling canggih, yang dirilis akhir November. Pada bulan Desember, METR mengumumkan bahwa Opus 4.5 tampaknya mampu menyelesaikan tugas secara independen yang akan memakan waktu sekitar lima jam bagi manusia—sebuah peningkatan besar melampaui prediksi tren eksponensial. Salah satu peneliti keamanan Anthropic bahkan mencuit bahwa ia akan mengubah arah penelitiannya setelah melihat hasil tersebut; karyawan lain di perusahaan itu hanya menulis, “mama, jemput aku, aku takut.”

Tapi, kenyataannya jauh lebih rumit dari reaksi dramatis tersebut. Pertama, estimasi kemampuan model spesifik dari METR disertai dengan margin kesalahan yang signifikan. Seperti yang secara eksplisit dinyatakan METR di X, Opus 4.5 mungkin hanya mampu menyelesaikan tugas yang memakan waktu sekitar dua jam bagi manusia, atau bahkan mungkin berhasil pada tugas yang memakan waktu hingga 20 jam bagi manusia. Mengingat ketidakpastian yang melekat pada metode ini, sulit untuk mengetahui dengan pasti.

Kredit: METR.ORG

“Ada banyak cara orang terlalu menafsirkan grafik ini,” kata Sydney Von Arx, anggota staf teknis METR.

Lebih mendasar lagi, plot METR tidak mengukur kemampuan AI secara luas, dan tidak pula mengklaim demikian. Untuk membangun grafik tersebut, METR menguji model-model tersebut terutama pada tugas koding, mengevaluasi tingkat kesulitannya dengan mengukur atau memperkirakan berapa lama waktu yang dibutuhkan manusia untuk menyelesaikannya—sebuah metrik yang tidak semua orang terima. Claude Opus 4.5 mungkin mampu menyelesaikan tugas-tugas tertentu yang memakan waktu lima jam bagi manusia, tetapi itu tidak berarti ia sudah mendekati menggantikan pekerja manusia. Mirip seperti studi IBM yang membongkar bahwa agen AI seringkali hebat di kertas tapi lemah di lapangan, grafik METR ini pun memiliki nuansa serupa.

METR didirikan untuk menilai risiko yang ditimbulkan oleh sistem AI mutakhir. Meskipun paling dikenal karena plot tren eksponensialnya, ia juga telah bekerja sama dengan perusahaan AI untuk mengevaluasi sistem mereka secara lebih rinci dan menerbitkan beberapa proyek penelitian independen lainnya, termasuk studi Juli 2025 yang banyak diliput yang menunjukkan bahwa asisten koding AI mungkin sebenarnya memperlambat kinerja insinyur perangkat lunak.

Namun, plot eksponensial inilah yang membuat reputasi METR melejit, dan organisasi ini tampaknya memiliki hubungan yang rumit dengan penerimaan grafik yang seringkali sensasional. Pada bulan Januari, Thomas Kwa, salah satu penulis utama makalah yang memperkenalkan grafik tersebut, menulis postingan blog yang menanggapi beberapa kritik dan menjelaskan batasannya, dan METR saat ini sedang mengerjakan dokumen FAQ yang lebih ekstensif. Tapi Kwa tidak optimis bahwa upaya ini akan secara signifikan mengubah wacana. “Saya pikir mesin hype pada dasarnya, apa pun yang kami lakukan, hanya akan menghilangkan semua peringatannya,” katanya.

Meskipun demikian, tim METR memang berpikir bahwa plot tersebut memiliki sesuatu yang berarti untuk dikatakan tentang lintasan kemajuan AI. “Anda sama sekali tidak boleh menggantungkan hidup Anda pada grafik ini,” kata Von Arx. “Tapi juga,” tambahnya, “Saya yakin tren ini akan bertahan.”

Sebagian masalah dengan plot METR adalah bahwa plot tersebut jauh lebih rumit daripada kelihatannya. Sumbu x cukup sederhana: melacak tanggal rilis setiap model. Tetapi sumbu y adalah tempat segalanya menjadi rumit. Ini mencatat “horizon waktu” setiap model, metrik tidak biasa yang diciptakan METR—dan yang, menurut Kwa dan Von Arx, sering disalahpahami.

Untuk memahami dengan tepat apa itu horizon waktu model, ada baiknya untuk mengetahui semua pekerjaan yang dilakukan METR dalam menghitungnya. Pertama, tim METR mengumpulkan koleksi tugas mulai dari pertanyaan pilihan ganda cepat hingga tantangan koding yang rumit—semuanya relevan dengan rekayasa perangkat lunak. Kemudian mereka meminta pembuat kode manusia untuk mencoba sebagian besar tugas tersebut dan mengevaluasi berapa lama waktu yang dibutuhkan mereka untuk menyelesaikannya. Dengan cara ini, mereka menetapkan waktu dasar manusia untuk tugas-tugas tersebut. Beberapa tugas membutuhkan waktu hanya beberapa detik bagi para ahli, sementara yang lain membutuhkan beberapa jam.

Ketika METR menguji model bahasa besar pada rangkaian tugas, mereka menemukan bahwa model canggih dapat menyelesaikan tugas cepat dengan mudah—tetapi ketika model mencoba tugas yang membutuhkan waktu lebih lama bagi manusia untuk diselesaikan, akurasi mereka mulai menurun. Dari kinerja suatu model, para peneliti menghitung titik pada skala waktu tugas manusia di mana model akan berhasil menyelesaikan sekitar 50% tugas. Titik itulah yang disebut horizon waktu model.

Semua detail itu ada dalam postingan blog dan makalah akademis yang dirilis METR bersama dengan plot horizon waktu asli. Tetapi plot METR seringkali tersebar di media sosial tanpa konteks ini, sehingga arti sebenarnya dari metrik horizon waktu dapat hilang dalam keramaian. Salah satu kesalahpahaman umum adalah bahwa angka pada sumbu y plot—sekitar lima jam untuk Claude Opus 4.5, misalnya—mewakili lama waktu model dapat beroperasi secara independen. Tidak demikian. Angka-angka tersebut mewakili berapa lama waktu yang dibutuhkan manusia untuk menyelesaikan tugas yang dapat dilakukan model dengan sukses. Kwa telah melihat kesalahan ini begitu sering sehingga ia menekankan untuk mengoreksinya di bagian paling atas postingan blog terbarunya, dan ketika ditanya informasi apa yang akan ia tambahkan pada versi plot yang beredar online, ia mengatakan akan menyertakan kata “manusia” setiap kali waktu penyelesaian tugas disebutkan.

Meskipun konsep horizon waktu mungkin rumit dan sering disalahartikan, konsep tersebut memang masuk akal secara dasar: Model dengan horizon waktu satu jam dapat mengotomatiskan sebagian kecil pekerjaan seorang insinyur perangkat lunak, sementara model dengan horizon 40 jam berpotensi menyelesaikan pekerjaan berhari-hari sendiri. Namun beberapa ahli mempertanyakan apakah jumlah waktu yang dibutuhkan manusia untuk menyelesaikan tugas merupakan metrik yang efektif untuk mengukur kemampuan AI. “Saya tidak berpikir itu adalah fakta yang pasti bahwa karena sesuatu membutuhkan waktu lebih lama, itu akan menjadi tugas yang lebih sulit,” kata Inioluwa Deborah Raji, seorang mahasiswa PhD di UC Berkeley yang mempelajari evaluasi model.

Von Arx mengatakan bahwa ia juga awalnya skeptis bahwa horizon waktu adalah ukuran yang tepat untuk digunakan. Yang meyakinkannya adalah melihat hasil analisisnya dan rekan-rekannya. Ketika mereka menghitung horizon waktu 50% untuk semua model utama yang tersedia pada awal 2025 dan kemudian memplot setiap model pada grafik, mereka melihat bahwa horizon waktu untuk model tingkat atas meningkat dari waktu ke waktu—dan, terlebih lagi, laju kemajuannya semakin cepat. Setiap sekitar tujuh bulan, horizon waktu berlipat ganda, yang berarti bahwa model paling canggih dapat menyelesaikan tugas yang membutuhkan waktu sembilan detik bagi manusia pada pertengahan 2020, 4 menit pada awal 2023, dan 40 menit pada akhir 2024. “Saya bisa melakukan semua teori yang saya inginkan tentang apakah itu masuk akal atau tidak, tetapi trennya ada,” kata Von Arx.

Pola dramatis inilah yang membuat plot METR begitu populer. Banyak orang mengetahuinya ketika mereka membaca AI 2027, sebuah cerita fiksi ilmiah viral yang sekaligus merupakan perkiraan kuantitatif yang menyatakan bahwa AI supercerdas dapat memusnahkan umat manusia pada tahun 2030. Para penulis AI 2027 mendasarkan beberapa prediksi mereka pada plot METR dan mengutipnya secara ekstensif. Dalam kata-kata Von Arx, “Agak aneh ketika banyak orang mengenal pekerjaan Anda melalui interpretasi yang cukup beropini ini.”

Tentu saja, banyak orang mengacu pada plot METR tanpa membayangkan kematian dan kehancuran berskala besar. Bagi sebagian pendukung AI, tren eksponensial menunjukkan bahwa AI akan segera mengantarkan era pertumbuhan ekonomi radikal. Perusahaan modal ventura Sequoia Capital, misalnya, baru-baru ini mengeluarkan postingan berjudul “2026: This is AGI,” yang menggunakan plot METR untuk menyatakan bahwa AI yang dapat bertindak sebagai karyawan atau kontraktor akan segera tiba. “Provokasinya adalah seperti, ‘Apa yang akan Anda lakukan ketika rencana Anda diukur dalam abad?’” kata Sonya Huang, mitra umum di Sequoia dan salah satu penulis postingan tersebut.

Hanya karena suatu model mencapai horizon waktu satu jam pada plot METR, tidak berarti model tersebut dapat menggantikan satu jam kerja manusia di dunia nyata. Pertama, tugas-tugas yang dievaluasi model tidak mencerminkan kompleksitas dan kebingungan pekerjaan di dunia nyata. Dalam studi asli mereka, Kwa, Von Arx, dan rekan-rekannya mengukur apa yang mereka sebut “kerumitan” setiap tugas menurut kriteria seperti apakah model tahu persis bagaimana ia dinilai dan apakah ia dapat dengan mudah memulai kembali jika melakukan kesalahan (untuk tugas yang rumit, jawaban untuk kedua pertanyaan tersebut adalah tidak). Mereka menemukan bahwa model berkinerja lebih buruk pada tugas yang rumit, meskipun pola peningkatan keseluruhan berlaku untuk tugas yang rumit dan tidak rumit.

Baca juga artikel menarik lainnya di kategori Sidang Bot.

Bahkan tugas paling rumit yang dipertimbangkan METR pun tidak dapat memberikan banyak informasi tentang kemampuan AI untuk mengambil alih sebagian besar pekerjaan, karena plot tersebut hampir seluruhnya didasarkan pada tugas koding. “Sebuah model bisa menjadi lebih baik dalam koding, tetapi tidak akan secara ajaib menjadi lebih baik dalam hal lain,” kata Daniel Kang, seorang asisten profesor ilmu komputer di University of Illinois Urbana-Champaign. Dalam studi lanjutan, Kwa dan rekan-rekannya memang menemukan bahwa horizon waktu untuk tugas di domain lain juga tampaknya berada pada lintasan eksponensial, tetapi pekerjaan itu jauh lebih tidak formal.

Meskipun ada keterbatasan ini, banyak orang mengagumi penelitian kelompok tersebut. “Studi METR adalah salah satu studi yang paling cermat dirancang dalam literatur untuk jenis pekerjaan ini,” kata Kang kepada saya. Bahkan Gary Marcus, mantan profesor NYU dan pengkritik LLM profesional, menggambarkan banyak pekerjaan yang dilakukan dalam plot tersebut sebagai “hebat” dalam sebuah postingan blog.

Beberapa orang pasti akan terus membaca plot METR sebagai ramalan kiamat yang disebabkan AI, tetapi kenyataannya jauh lebih biasa: sebuah alat ilmiah yang dibangun dengan cermat yang memberikan angka konkret pada perasaan intuitif orang tentang kemajuan AI. Seperti yang akan disetujui karyawan METR, plot tersebut jauh dari instrumen yang sempurna. Tetapi dalam domain yang baru dan bergerak cepat, bahkan alat yang tidak sempurna pun dapat memiliki nilai yang sangat besar.

“Ini adalah sekelompok orang yang mencoba yang terbaik untuk membuat metrik di bawah banyak batasan. Ini sangat cacat dalam banyak hal,” kata Von Arx. “Saya juga berpikir bahwa ini adalah salah satu hal terbaik dari jenisnya.”

Agar Anda tak cuma jadi penonton robot yang sok pintar, saatnya mengambil kendali penuh. Pelajari cara mengarahkan AI dengan tepat agar ia jadi asisten andal, bukan malah bikin repot. Produk seperti AI Master bisa membantumu mengendalikan AI, atau jika kamu ingin memastikan kontenmu ‘nggak robot banget’, Creative AI Pro adalah pilihan yang cerdas.

Ingatlah, kecerdasan buatan hanyalah alat yang dibentuk oleh perintah kita. Tanpa tangan dan akal manusia yang menekan tombol, AI hanyalah tumpukan kode mati yang bisu. Jadi, siapa majikan sebenarnya di sini?

Oh, dan jangan lupa, alarm di ponsel saya juga sering ngaco. Jadi, jangan terlalu percaya pada prediksi apa pun, entah itu dari AI atau dari gawai di saku celana Anda.

Artikel ini dirangkum dari sumber asli di MIT Technology Review
Gambar oleh: Stephanie Arnett/MIT Technology Review | Public domain (ship)

Leave a Reply

Your email address will not be published. Required fields are marked *