GPT-OSS Jadi Agen AI? LinkedIn Bongkar Drama di Baliknya: Algoritma Ngaco, Memori Jebol! (Untung Ada Majikan yang Punya Akal)
Pernah membayangkan AI bisa jadi asisten pribadi yang bukan cuma jawab pertanyaan, tapi juga mikir, berencana, dan bertindak layaknya manusia? Itulah yang namanya Agentic Reinforcement Learning (RL), sebuah terobosan di mana AI belajar langsung dari interaksi di lingkungan, bukan cuma dari data statis. Ibarat asisten rumah tangga yang belajar nyetrika sambil menghadapi tumpukan baju kusut, bukan cuma baca buku panduan. LinkedIn, sebagai salah satu majikan besar di dunia AI, ternyata sedang mengulik lebih dalam model GPT-OSS untuk mewujudkan mimpi ini.
Namun, seperti layaknya asisten baru yang masih perlu banyak piknik, perjalanan melatih GPT-OSS tidak semulus janji manis para pengembang. Artikel ini akan membedah drama di balik layar, dari algoritma yang tiba-tiba “halu” sampai memori yang “jebol”, dan bagaimana akal Majikan Manusia berhasil menjinakkan “robot” yang masih perlu banyak sekolah ini.
GPT-OSS: Dari Janji Manis ke Kenyataan Pahit
LinkedIn, sebagai perusahaan yang berfokus pada AI, punya ambisi besar: menciptakan agen AI yang bisa membantu para profesional meraih sukses. Ini berarti model AI harus mampu bernalar dengan informasi yang tidak lengkap, berinteraksi dengan berbagai layanan, dan beradaptasi dengan niat pengguna yang terus berubah. Kemampuan seperti mengambil informasi, menyaring kueri, mengkoordinasikan alat, hingga menjalankan alur kerja multi-langkah sangat krusial bagi agen AI.
Model GPT-OSS memang menjanjikan performa yang setara dengan model canggih lainnya. Namun, ketika diterapkan dalam skenario agentic RL, muncul berbagai tantangan tak terduga. Tim LinkedIn menggunakan verl sebagai framework pelatihan dan tugas Retool (memecahkan soal matematika dengan bantuan code compiler) sebagai medan uji coba. Hasil awal? Divergensi KL yang meledak, entropi yang tidak terkontrol, dan reward yang stagnan. Persis seperti melihat nilai ujian anak yang masih perlu les privat.
Gambar 1. Kiri: Reward Qwen32b jauh lebih tinggi dibanding GPT-OSS 20B; Kanan: Gradient norm GPT-OSS 20B meledak seiring pelatihan.
Ini menunjukkan ada masalah fundamental. Robot ini ternyata belum siap kerja keras di lapangan tanpa pengawasan ketat. Memang benar kata pepatah, “AI Hanyalah Alat, Kaulah Majikan yang Punya Akal”.
Debugging Ala Majikan: Menjinakkan Algoritma yang “Halu”
Ketika PPO “Salah Paham”: Log-Probability Mismatch
Salah satu biang kerok utama adalah ketidaksesuaian log-probability dalam algoritma Proximal Policy Optimization (PPO). PPO adalah metode on-policy yang mengharuskan rasio importance sampling selalu bernilai 1. Ini penting agar pembaruan kebijakan hanya dilakukan pada data yang dihasilkan oleh kebijakan saat ini. Kalau tidak, robot bisa “salah paham” dan belajar dari data yang keliru, mirip seperti asisten yang diberi instruksi A tapi malah mengerjakan B.
Gambar 2. Nilai klip importance sampling yang tidak nol, bahkan untuk pelatihan on-policy.
Ternyata, penyebabnya adalah arsitektur Mixture of Experts (MoE) yang digunakan GPT-OSS. Ketika model melakukan dua forward pass terpisah untuk menghitung log_prob dan old_log_prob, jaringan gating bisa saja mengarahkan input ke expert yang sedikit berbeda. Akibatnya, , memicu PPO clip palsu dan membuat pelatihan tidak stabil. Solusinya? Paksa nilai old_log_prob sama dengan log_prob yang baru dihitung ketika pelatihan dipastikan on-policy. Robot langsung sadar diri!.
Miskomunikasi Antara Pelatihan dan Inferensi
Setelah masalah log-probability beres, masalah baru muncul: meskipun robot tidak lagi “halu” dengan angka, gradien tetap meledak dan reward tetap datar. Penyelidikan lebih lanjut mengungkapkan bahwa ada miskomunikasi antara cara model bekerja saat pelatihan (training) dan saat inferensi (inference). Bayangkan saja, asisten Anda diajari cara memasak dengan kompor gas, tapi disuruh masak pakai kompor listrik. Hasilnya pasti beda, kan?
Mesin inferensi seperti vLLM dan SGLang mengoptimalkan kecepatan, sedangkan pelatihan dengan FSDP mengutamakan presisi. Ketidaksesuaian ini mengubah RL on-policy menjadi off-policy, yang berujung pada gradien tidak stabil dan reward yang tidak kunjung naik. Setelah menerapkan rollout correction (semacam menyamakan persepsi antara teori dan praktik), gradien menjadi lebih stabil. Namun, reward hanya meningkat sedikit, seperti diet yang cuma turun 1 kilo.
Gambar 3. Peningkatan reward pada GSM8K masih lambat meski sudah pakai rollout correction.
Ini memicu kecurigaan bahwa mekanisme attention adalah biang keladinya. Ternyata, FlashAttention v2 yang digunakan tidak mendukung attention sinks yang dipakai GPT-OSS. Attention sinks ini ibarat katup pengaman agar fokus AI tidak meluber kemana-mana. Tanpa dukungan ini, AI jadi mudah “kepanasan” dan tidak efisien.
Solusinya? Tim harus mengimplementasikan backward pass untuk attention sinks di FlashAttention v3, mengambil inspirasi dari vLLM FlashAttention fork. Ini seperti memodifikasi mesin mobil agar bisa pakai jenis bahan bakar yang berbeda. Hasilnya, GPT-OSS-20B menunjukkan konvergensi yang jauh lebih cepat dan stabil di berbagai tugas, termasuk penalaran matematika (GSM8K), instruksi, dan agentic RL dengan penggunaan alat (Retool).
Gambar 4. GSM8K Single Turn. Kurva merah (dengan fix) konvergen jauh lebih cepat.
Baca juga artikel menarik lainnya di kategori Sidang Bot.
Efisiensi Memori: Ketika Robot Terlalu Boros
Selain masalah algoritma, ada juga drama memori. Saat melatih model GPT-OSS-20B bf16 pada 16 node H200, terjadi out-of-memory (OOM) failures berulang kali. Ini sangat aneh untuk model 20B parameter. Ternyata, implementasi MoE forward path di Hugging Face Transformers menduplikasi hidden states untuk semua expert saat inferensi di bawah FSDP, sehingga mengalokasikan tensor yang sangat besar di memori GPU. Ini ibarat asisten yang fotokopi semua dokumen, padahal cuma butuh satu halaman.
Tim Majikan AI harus “membedah” implementasi Hugging Face untuk menggunakan jalur eksekusi yang lebih hemat memori, menghindari duplikasi expert yang tidak perlu. Selain itu, agentic RL membutuhkan AI untuk berinteraksi dalam jangka panjang, membangun konteks yang terus berkembang. Ini butuh memori yang sangat efisien.
Memori HBF: Kulkas Raksasa AI yang Butuh Majikan Teliti (Bukan Cuma Asisten yang Rajin) menjelaskan lebih lanjut bagaimana manajemen memori krusial untuk AI raksasa.
Gambar 5. Kiri: Inferensi tanpa sequence parallelism. Kanan: Inferensi dengan sequence parallelism, mengurangi jejak memori puncak.
Solusinya adalah mengintegrasikan sequence parallelism dengan dukungan attention sink di FlashAttention v3. Ini memecah urutan input ke seluruh perangkat, secara signifikan mengurangi konsumsi memori GPU. Dengan ini, model bisa “melihat” konteks yang lebih panjang tanpa bikin GPU “sesak napas”.
Kesimpulan: Sentuhan Majikan Tak Tergantikan
Perjalanan LinkedIn dalam mengaktifkan pelatihan agentic RL untuk model GPT-OSS adalah sebuah retrospeksi praktis yang menunjukkan bahwa membuka kemampuan canggih pada LLM open-source membutuhkan rekayasa yang teliti dan mendalam. Tidak ada robot yang lahir langsung pintar, semua butuh bimbingan dan koreksi dari Majikannya.
Kontribusi tim LinkedIn mencakup:
- Menstabilkan PPO: Memperbaiki integritas on-policy untuk mengatasi ketidakcocokan log-probability dari arsitektur MoE yang non-deterministik.
- Mengaktifkan Dukungan Attention Sink: Mengimplementasikan backward pass attention sink ke FlashAttention v3, memperbaiki ketidaksesuaian pelatihan-inferensi yang menyebabkan ketidakstabilan.
- Meningkatkan Efisiensi Memori: Mengoptimalkan proses MoE materialization dan mengintegrasikan sequence parallelism untuk mendukung konteks yang lebih panjang.
Ini membuktikan bahwa GPT-OSS bisa menjadi tulang punggung yang skalabel dan berkinerja tinggi untuk agen pembuat keputusan multi-langkah. Namun, ingat, semua kecerdasan buatan ini tetap tidak akan bergerak tanpa jari manusia yang menekan tombol. Agen AI Perusahaan Cuma Jago Konsep? Dynatrace Bongkar Biang Keroknya: Bukan Salah Robot, Tapi Salah Majikan!, yang menunjukkan bahwa kegagalan AI seringkali berasal dari manusia yang salah memberikan arahan.
Ingin menguasai AI dan menjadi Majikan sejati? Jangan sampai kalah cerdas dengan robot. Ikuti AI Master agar Anda bisa mengendalikan AI, bukan sebaliknya.
Dan ingat, secanggih apapun AI, ia tidak akan pernah bisa memutuskan mau makan siang apa. Itu tetap tugasmu, Majikan!
Sumber Berita: Artikel ini dirangkum dari sumber asli di “Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective”
Gambar oleh: LinkedIn via Hugging Face