Agen AI Mau Gantikan Pekerja Kantoran? Hasil Benchmark Baru dari Mercor: Mayoritas GAGAL Total!
Berapa kali Anda mendengar ramalan bahwa AI akan segera mengambil alih pekerjaan kerah putih? Sejak Satya Nadella dari Microsoft sesumbar dua tahun lalu bahwa AI akan menggantikan ‘knowledge work’ seperti pengacara atau bankir investasi, kita sudah disuguhi berbagai janji manis. Namun, di lapangan, perubahan masif itu terasa jalan di tempat. Model bahasa besar (LLM) memang sudah jago riset mendalam dan perencanaan yang ‘agentic’, tapi entah kenapa, pekerjaan kantoran sehari-hari kok ya masih butuh sentuhan Majikan (manusia) yang punya akal.
Misteri ini akhirnya mulai terkuak berkat riset terbaru dari raksasa data pelatihan, Mercor. Mereka merilis benchmark baru bernama Apex-Agents, yang mensimulasikan tugas-tugas nyata pekerjaan kerah putih dari sektor konsultan, perbankan investasi, dan hukum. Hasilnya? Mengejutkan sekaligus melegakan bagi para pekerja manusia: sebagian besar model AI terkemuka, termasuk Gemini 3 Flash, GPT-5.2, Opus 4.5, Gemini 3 Pro, dan GPT-5, mendapatkan nilai jeblok! Jangankan sempurna, untuk mendapatkan seperempat jawaban yang benar saja mereka sudah ngos-ngosan. Mayoritas waktu, AI ini malah balik dengan jawaban salah atau tidak ada jawaban sama sekali.
Brendan Foody, salah satu peneliti di balik makalah ini, menjelaskan akar masalahnya. Rupanya, titik kelemahan terbesar AI adalah kemampuannya melacak informasi lintas berbagai domain. Coba bayangkan, sebagai manusia, Anda bekerja menggunakan Slack, Google Drive, email, dan seabrek alat lain secara bersamaan. AI agen, yang harus berinteraksi layaknya manusia di lingkungan profesional, masih gagap menghadapi kompleksitas ‘multi-domain reasoning’ ini. Mereka seperti asisten rumah tangga yang rajin mencatat tapi bingung kalau disuruh mencari resep di buku masakan yang tersimpan di tiga lemari berbeda.
Perbedaan kunci antara Apex-Agents dan benchmark lain seperti GDPVal milik OpenAI terletak pada kedalamannya. GDPVal menguji pengetahuan umum AI di berbagai profesi, sedangkan Apex-Agents menantang AI untuk melakukan tugas berkelanjutan dalam profesi bernilai tinggi. Ini membuat tes Mercor jauh lebih relevan untuk mengukur apakah pekerjaan tersebut benar-benar bisa diotomatisasi.
Baca juga artikel menarik lainnya di kategori Sidang Bot.
Meskipun model-model AI tersebut masih jauh dari siap untuk mengambil alih pekerjaan bankir investasi, ada sedikit harapan. Gemini 3 Flash memimpin dengan akurasi 24%, disusul GPT-5.2 (23%), lalu Opus 4.5, Gemini 3 Pro, dan GPT-5 di kisaran 18%. Foody optimis, mengingat kecepatan perkembangan AI. “Tahun lalu, AI hanya benar 5-10%,” katanya. “Sekarang sudah 25%, seperti intern yang masih perlu banyak bimbingan.” Intinya, AI masih dalam tahap ‘magang’ yang butuh sekolah lagi. Ini mirip dengan apa yang pernah kami ulas di artikel AI Agen Industri: Hebat di Kertas, Lemah di Lapangan? IBM Ungkap Fakta Pahit Lewat Benchmark Baru! yang juga menyoroti keterbatasan AI dalam konteks industri.
Ini membuktikan bahwa AI Master adalah kunci bagi Anda, sang Majikan, untuk benar-benar mengendalikan teknologi, bukan malah dikendalikan. Jangan sampai Anda kalah cerdik dengan sistem yang masih ‘kurang piknik’ ini. Lagipula, untuk tugas-tugas yang butuh kreativitas dan pemikiran strategis—seperti membuat konten marketing yang ‘nggak robot banget’—AI masih kesulitan. Jadi, mungkin ini saatnya Anda melengkapi diri dengan Creative AI Pro agar bisa bikin konten profesional tanpa perlu buang-buang budget mencari talenta yang (untungnya) masih lebih pintar dari AI. Oh ya, bicara soal AI yang bingung, jangan sampai nasibnya kayak artikel AI Mau Pasang Iklan di Chatbot? Google DeepMind Terkejut: Memangnya Kamu Mau Asisten Pribadi Malah Jualan Bakso? yang menyoroti bagaimana AI masih perlu panduan etika dari kita para Majikan.
Pada akhirnya, terbukti bahwa secanggih apa pun algoritma, secemerlang apa pun model bahasanya, tanpa Majikan (manusia) yang punya akal untuk memberi perintah dan mengarahkan, AI hanyalah tumpukan kode mati yang kebingungan mencari data di Slack. Jadi, jangan terlalu panik dulu dengan ramalan AI akan mencuri pekerjaan Anda. Toh, mereka masih perlu banyak belajar. Sekarang, mending siapkan kopi dulu, kerjaan kita masih banyak!
Sumber Berita:
Artikel ini dirangkum dari sumber asli di “TechCrunch”.
Gambar oleh: J Studios / Getty Images via TechCrunch