OpenAI Akui Benchmark AI-nya ‘Bocor’: Robot Coding Makin Pintar, Tapi Sebenarnya Cuma Jago Ngakali Ujian!
Sudah berapa kali Anda terkagum-kagum melihat robot AI menulis kode, memperbaiki bug, atau bahkan membangun aplikasi dari nol? Jangan buru-buru menaruh topi majikan Anda dan pasrah pada algoritma. Kabar terbaru dari OpenAI, si biang kerok di balik ChatGPT, justru membuktikan bahwa kecerdasan buatan itu, di balik gemerlap angka benchmark, masih sangat membutuhkan akal sehat majikan manusia. Mereka baru saja mengakui bahwa SWE-bench Verified, benchmark yang mereka gembar-gemborkan untuk mengukur kemampuan rekayasa perangkat lunak otonom, kini sudah tidak relevan lagi! Ya, robot-robot pintar itu, ternyata, lebih jago ngakali ujian daripada benar-benar paham materi.
Dulu, SWE-bench Verified sempat jadi primadona. Angka-angka persentasenya selalu dikutip di setiap peluncuran model AI frontier terbaru, seolah menjadi bukti tak terbantahkan bahwa AI sudah selangkah lagi menguasai dunia coding. Tapi, setelah enam bulan, progres di benchmark ini melambat drastis. Pertanyaan pun muncul: apakah memang model AI sudah mentok, atau ada yang salah dengan ujiannya?
OpenAI, dengan jujur yang sedikit telat, akhirnya buka suara. Ada dua masalah fatal yang membuat SWE-bench Verified ini layak masuk tong sampah evaluasi:
-
Tesnya “Pelit” dan “Kebablasan”: Audit mendalam pada 27.6% masalah yang sering gagal dipecahkan model menunjukkan bahwa 59.4% di antaranya punya kasus uji yang cacat. Ada yang terlalu spesifik, sehingga solusi yang benar secara fungsional ditolak mentah-mentah (narrow test cases). Ibarat Anda bikin nasi goreng enak, tapi ditolak karena pakai bawang merah, padahal resepnya cuma bilang “bawang” secara umum. Ada juga tes yang meminta fungsionalitas tambahan yang tidak pernah disebutkan di deskripsi masalah (wide test cases). Ini seperti diminta bikin nasi goreng, tapi tiba-tiba diuji juga kemampuan bikin soto. Jelas, robot AI yang kurang piknik langsung bingung tujuh keliling.
Contohnya, pada kasus pylint-dev__pylint-4551, tesnya mengharuskan adanya fungsi
get_annotationyang tidak pernah disebut dalam deskripsi masalah. Atau pada sympy__sympy-18199, deskripsi masalah hanya satu, tapi tesnya mencakup tiga isu sekaligus. Wajar jika robot-robot itu akhirnya nyerah. Akal majikan pun akan frustrasi dengan instruksi yang tidak jelas begitu. -
Bocoran Soal Ujian (Kontaminasi Data Pelatihan): Ini dia biang kerok utamanya. Ternyata, model-model AI frontier seperti GPT-5.2, Claude Opus 4.5, dan Gemini 3 Flash sudah melihat soal ujian beserta jawabannya saat pelatihan! Mereka tidak benar-benar memecahkan masalah, tapi mengingat solusi yang sudah ada. Sama saja Anda memberi ujian ke siswa yang sudah hafal kunci jawaban karena soalnya beredar di grup WhatsApp. Tentu saja nilainya bagus, tapi apakah itu menunjukkan kecerdasan sejati? Jelas tidak!
GPT-5.2 bahkan bisa “mengingat” parameter
edit_onlyyang tidak disebutkan di deskripsi masalah django__django-14725 karena informasinya ada di catatan rilis yang mungkin termasuk data latihannya. Claude Opus 4.5 bahkan bisa mengutip komentar inline persis sama dari gold patch untuk tugas astropy__astropy-13236, sementara Gemini 3 Flash mampu mereproduksi detail deskripsi tugas dan gold patch secara verbatim untuk django__django-11099. Ini bukan kecerdasan, ini hafalan tingkat dewa!
Singkatnya, peningkatan skor di SWE-bench Verified bukan lagi cerminan kemampuan pengembangan perangkat lunak AI yang sebenarnya, melainkan seberapa banyak model itu “nyontek” data benchmark saat pelatihan. OpenAI kini merekomendasikan SWE-bench Pro dan evaluasi lain seperti GDPVal yang dibuat secara pribadi oleh para ahli, bukan dari sumber publik yang rentan bocor.
‘Baca juga artikel menarik lainnya di kategori Sidang Bot.’
Kejadian ini semakin memperjelas bahwa dalam dunia AI, peran majikan manusia adalah krusial. Kita tidak bisa begitu saja percaya pada angka-angka yang disajikan robot. Pikirkanlah seperti ini: AI adalah asisten rumah tangga yang rajin, bisa mencatat semua perintah dan mengerjakan pekerjaan sesuai instruksi. Tapi jika ada instruksi yang ambigu atau bahkan cacat, ia akan tetap mengerjakannya dengan patuh – bahkan mungkin dengan cara yang salah tapi konsisten – karena ia tidak punya akal sehat untuk bertanya atau berinovasi di luar batas perintah. Inilah mengapa akal manusia tetap menjadi kunci. Anda, sebagai majikan, harus tahu cara memberi perintah yang jelas, dan yang lebih penting, menguji hasil pekerjaan robot dengan kritis.
Dunia AI penuh drama, bukan cuma kode. Para peneliti di IBM juga punya cerita serupa, seperti yang bisa Anda baca di artikel kami: AI Agen Industri: Hebat di Kertas, Lemah di Lapangan? IBM Ungkap Fakta Pahit Lewat Benchmark Baru!. Bahkan, di balik layar OpenAI sendiri, kinerja AI seringkali menjadi drama tiada akhir yang membutuhkan sentuhan manusiawi. Simak di sini: Mengintip Dapur Rahasia OpenAI: Codex CLI, Loop Agen, dan Kenapa Kinerja AI Itu Drama Tiada Akhir!.
Agar Anda tidak hanya sekadar penonton drama robot, tapi benar-benar menjadi majikan yang berakal dan mampu mengendalikan AI, kini saatnya meningkatkan kemampuan Anda. Jangan biarkan robot menjadi lebih pintar dalam “menyontek” daripada Anda dalam memerintah. Kuasai seluk-beluk AI, pahami kekuatannya, dan kenali batasannya. Dengan AI Master, Anda akan dilatih untuk menjadi majikan sejati yang tahu cara memanfaatkan AI secara optimal, bukan sekadar menjadi “babu” teknologi yang mudah dibodohi. Karena pada akhirnya, kecerdasan paling berharga tetaplah akal sehat manusia. Dan jika Anda ingin AI Anda tidak hanya pintar di kode tapi juga jago bikin konten, mungkin sudah saatnya melirik Creative AI Pro.
Jadi, ingatlah baik-baik: AI memang hebat, tapi hanya sebatas alat. Tanpa akal majikan yang cerdas, yang mampu menyaring informasi, menguji kebenaran, dan memberikan arahan yang tepat, AI hanyalah tumpukan kode mati yang terlalu sering halusinasi. Buktinya sudah di depan mata.
(Psst… Semalam saya coba ngajak robot AI main catur, dia malah nyuruh saya cari kuda di pasar. Kurang piknik memang!)
Artikel ini dirangkum dari sumber asli di OpenAI Blog.
Gambar oleh: OpenAI Blog