Hardware & ChipSidang BotUpdate Algoritma

Bongkar Rahasia Dapur AI Penghasil Gambar: Kenapa Robot Masih Perlu ‘Sekolah’ Lanjutan dari Majikan yang Teliti?

Selamat datang kembali, para Majikan AI! Ini adalah kelanjutan dari seri kami tentang melatih model teks-ke-gambar yang efisien dari nol. Di bagian pertama, kami memperkenalkan tujuan kami: melatih model dasar teks-ke-gambar yang kompetitif sepenuhnya dari nol, secara terbuka, dan dalam skala besar. Kami fokus terutama pada pilihan arsitektur dan memotivasi keputusan desain inti di balik model kami, PRX. Kami juga merilis versi awal yang kecil (1,2B parameter) dari model tersebut sebagai pratinjau dari apa yang sedang kami bangun.

Dalam artikel ini, kita akan menggeser fokus dari arsitektur ke pelatihan. Tujuannya adalah mendokumentasikan apa saja yang benar-benar membuat model lebih cepat dilatih, lebih andal dalam konvergensi, dan belajar representasi yang lebih baik. Bidang ini bergerak cepat, dan daftar “trik pelatihan” terus bertambah. Jadi, alih-alih menyajikan survei lengkap, kami menyusun ini sebagai buku catatan eksperimen: kami mereproduksi (atau mengadaptasi) serangkaian ide terbaru, mengimplementasikannya dalam pengaturan yang konsisten, dan melaporkan bagaimana hal tersebut memengaruhi optimisasi dan konvergensi dalam praktik. Terakhir, kami tidak hanya melaporkan teknik-teknik ini secara terpisah; kami juga mengeksplorasi mana saja yang tetap berguna jika digabungkan.

Nanti, kami akan mempublikasikan resep pelatihan lengkap sebagai kode, termasuk eksperimen dalam postingan ini. Kami juga akan menjalankan dan melaporkan tentang “balapan cepat” publik di mana kami menyatukan bagian-bagian terbaik ke dalam satu konfigurasi dan mengujinya secara menyeluruh. Latihan ini akan berfungsi sebagai uji stres dari pipeline pelatihan kami saat ini dan sebagai demonstrasi konkret tentang seberapa jauh desain pelatihan yang cermat dapat dilakukan di bawah batasan yang ketat.

The Baseline: Ketika Robot Baru Masuk TK

Sebelum memperkenalkan teknik efisiensi pelatihan apa pun, kami menetapkan referensi awal yang sederhana. Baseline ini sengaja dibuat minimalis. Ia menggunakan komponen standar, menghindari tujuan tambahan, dan tidak bergantung pada jalan pintas arsitektur atau trik untuk menghemat sumber daya komputasi. Perannya adalah menjadi titik perbandingan yang stabil untuk semua eksperimen berikutnya. Secara konkret, ini adalah pengaturan pelatihan Pure Flow Matching dengan tujuan tanpa tambahan dan tanpa speed hack arsitektur. Kami menggunakan model PRX-1.2B kecil yang kami presentasikan di bagian pertama seri ini (arsitektur single stream dengan perhatian global untuk token gambar dan token teks) sebagai baseline dan melatihnya dalam ruang laten Flux VAE, menjaga konfigurasi tetap di semua perbandingan kecuali dinyatakan lain.

Pengaturan pelatihan baseline adalah sebagai berikut:

Setting Value
Steps 100k
Dataset Public 1M synthetic image generated with MidJourneyV6
Resolution 256×256
Global batch size 256
Optimizer AdamW
lr 1e-4
weight_decay 0.0
eps 1e-15
betas (0.9, 0.95)
Text encoder GemmaT5
Positional encoding Rotary (RoPE)
Attention mask Padding mask
EMA Disabled

Konfigurasi baseline ini menyediakan acuan yang transparan dan dapat direproduksi. Ini memungkinkan kita untuk mengaitkan peningkatan dan kemunduran yang diamati dengan intervensi pelatihan tertentu, bukan pada perubahan hyperparameter atau perubahan pengaturan tersembunyi. Sepanjang sisa tulisan ini, setiap teknik dievaluasi terhadap referensi ini dengan satu pertanyaan panduan di benak:

Apakah modifikasi ini meningkatkan konvergensi atau efisiensi pelatihan relatif terhadap baseline?





Contoh generasi model baseline setelah 100K langkah pelatihan.

Benchmarking Metrics: Raport Merah atau Biru Si Robot?

Agar artikel ini tetap membumi, kami mengandalkan serangkaian kecil metrik untuk memantau checkpoint seiring waktu. Tidak ada satu pun yang merupakan proksi sempurna untuk kualitas gambar yang dirasakan, tetapi bersama-sama, mereka menyediakan papan skor praktis saat kami berulang kali menguji:

  • Fréchet Inception Distance (FID): Mengukur seberapa dekat distribusi gambar yang dihasilkan dan gambar asli. Nilai yang lebih rendah biasanya berkorelasi dengan fidelitas sampel yang lebih tinggi.

  • CLIP Maximum Mean Discrepancy (CMMD): Mengukur jarak antara distribusi gambar asli dan yang dihasilkan menggunakan embedding gambar CLIP. Lebih akurat dari FID dalam melacak kualitas persepsi.

  • DINOv2 Maximum Mean Discrepancy (DinoMMD): Jarak berbasis MMD yang sama dengan CMMD, tetapi dihitung pada embedding gambar DINOv2. Ini memberikan pandangan komplementer tentang pergeseran distribusi di bawah backbone vision yang diawasi sendiri.

  • Network throughput: Jumlah rata-rata sampel yang diproses per detik (sampel/s), sebagai ukuran efisiensi pelatihan end-to-end.

Dengan papan skor yang telah ditentukan, kita sekarang dapat menyelami metode-metode yang kami jelajahi, dikelompokkan menjadi empat bagian: Representation Alignment, Training Objectives, Token Routing and Sparsification, dan Data.

Representation Alignment: Ketika Robot Menyalin Cara Pikir Manusia

Model difusi dan alir biasanya dilatih dengan satu tujuan: memprediksi target seperti derau (atau bidang vektor) dari input yang rusak. Pada awal pelatihan, tujuan tunggal ini melakukan dua pekerjaan sekaligus: ia harus membangun representasi internal yang berguna dan belajar untuk menghilangkan derau di atasnya. Penyelarasan representasi membuat ini eksplisit dengan menjaga tujuan penghilang derau dan menambahkan kerugian tambahan yang secara langsung mengawasi fitur-fitur perantara menggunakan vision encoder yang kuat dan beku. Ini cenderung mempercepat pembelajaran awal dan membawa fitur-fitur model lebih dekat ke fitur-fitur encoder vision self-supervised modern. Hasilnya, Anda seringkali membutuhkan lebih sedikit komputasi untuk mencapai kualitas yang sama.

REPA (Yu et al., 2024): DINOv3 Lebih Superior, Tapi Boros!

PRX block

Penyelarasan representasi dengan visual encoder yang telah dilatih sebelumnya. Gambar dari arXiv:2410.06940.

REPA menambahkan istilah pencocokan representasi di atas tujuan flow-matching dasar. Dalam praktiknya, student dilatih untuk menghasilkan representasi patch yang noise-robust dan konsisten dengan data dari xtx_t, sehingga lapisan selanjutnya dapat fokus memprediksi bidang vektor dan menghasilkan detail, daripada menemukan kembali perancah semantik dari awal.

Apa yang Kami Temukan:

Kami menjalankan REPA di atas pelatihan PRX baseline kami, menggunakan dua teacher yang beku: DINOv2 dan DINOv3. Polanya sangat konsisten: menambahkan penyelarasan meningkatkan metrik kualitas, dan teacher yang lebih kuat lebih membantu, dengan biaya sedikit penurunan kecepatan.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.2 0.41 0.39 3.95
REPA-Dinov3 14.64 0.35 0.3 3.46
REPA-Dinov2 16.6 0.39 0.31 3.66

Pada metrik kualitas, kedua teacher meningkatkan kualitas dibandingkan baseline. Efeknya paling kuat dengan DINOv3, yang mencapai angka keseluruhan terbaik dalam percobaan ini. REPA tidak gratis: kami membayar untuk forward teacher tambahan yang beku dan loss kesamaan tingkat patch, yang terlihat sebagai penurunan throughput dari 3.95 batches/s menjadi 3.66 (DINOv2) atau 3.46 (DINOv3).

Dengan kata lain, DINOv3 memprioritaskan kualitas representasi maksimum dengan biaya pelatihan yang lebih lambat, sementara DINOv2 menawarkan trade-off yang lebih efisien, masih memberikan keuntungan substansial dengan perlambatan yang lebih kecil. Pelajaran praktis kami adalah bahwa REPA adalah pengungkit yang kuat untuk pelatihan teks-ke-gambar. Dalam pengaturan kami, trade-off throughput itu nyata dan net speedup terasa sedikit kurang dramatis daripada yang dilaporkan oleh penulis makalah tentang generasi gaya ImageNet yang dikondisikan kelas. Meskipun demikian, peningkatan kualitas masih jelas signifikan. Secara kualitatif, kami juga melihat perbedaannya lebih awal: setelah sekitar 100K langkah, sampel yang dilatih dengan penyelarasan cenderung mengunci struktur global yang lebih bersih dan tata letak yang lebih koheren.

Baseline Repa-DinoV2 Repa-DinoV3
media_images_txt2img_12_ Photography of a powerful, full-maned lion in mid-leap, emerging from a large, moss-covere..._100000_6011eb14deee0e4853fd(1) media_images_txt2img_12_ Photography of a powerful, full-maned lion in mid-leap, emerging from a large, moss-covere..._100000_e9f0e5ab2b08fd7a26ac media_images_txt2img_12_ Photography of a powerful, full-maned lion in mid-leap, emerging from a large, moss-covere..._100000_8c29450cd3e318204dc1

iREPA (Singh et al., 2025): Lebih Fokus ke Struktur Spasial, Tapi Tidak Selalu Konsisten

iREPA berpendapat bahwa yang harus kita selaraskan adalah struktur spasial, bukan semantik global. iREPA melakukan dua perubahan kecil namun terarah pada resep REPA untuk lebih baik dalam melestarikan dan mentransfer informasi spasial:

  • Mengganti MLP projection head biasa dengan convolutional projection 3×3 yang ringan yang beroperasi pada kisi patch.
  • Menerapkan normalisasi spasial pada token patch teacher yang menghilangkan overlay global (rata-rata di lokasi spasial) untuk meningkatkan kontras lokal.

Meskipun perubahan ini “kurang dari 4 baris kode”, penyesuaian ini secara konsisten mempercepat konvergensi dan meningkatkan kualitas di berbagai encoder, ukuran model, dan bahkan resep pelatihan yang berdekatan dengan REPA.

Apa yang Kami Temukan:

Dalam pengaturan kami, kami mengamati peningkatan serupa saat menerapkan penyesuaian spasial iREPA di atas DINOv2: konvergensi sedikit lebih lancar dan metrik meningkat lebih stabil selama 100K langkah pertama. Menariknya, perubahan yang sama tidak mentransfer dengan bersih saat diterapkan di atas teacher DINOv3 dan cenderung menurunkan kinerja daripada membantu. Kami tidak ingin terlalu menafsirkan hasil itu: ini bisa dengan mudah menjadi interaksi dengan arsitektur spesifik kami, resolusi/patching, pembobotan loss, atau bahkan detail implementasi kecil. Namun, mengingat inkonsistensi ini di berbagai teacher, kami kemungkinan besar tidak akan menyertakan penyesuaian ini dalam resep default kami, meskipun tetap menjadi pilihan menarik untuk dikunjungi kembali saat menyetel untuk pengaturan tertentu.

image

Pentingnya Menghentikan REPA: Karena Robot Juga Bisa Kelelahan

Makalah REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training (Wang et al., 2025) menyoroti peringatan kunci: REPA adalah akselerator awal yang kuat, tetapi dapat mencapai plateau atau bahkan menjadi penghambat di kemudian hari dalam pelatihan. Para penulis menggambarkan ketidaksesuaian kapasitas. Setelah model generatif mulai menyesuaikan distribusi data penuh (terutama detail frekuensi tinggi), memaksanya untuk tetap dekat dengan manifold embedding recognition encoder beku yang berdimensi lebih rendah menjadi membatasi. Pelajaran praktis mereka sederhana: pertahankan penyelarasan untuk fase “burn-in“, lalu matikan dengan jadwal bertahap. Kami mengamati pola kualitatif yang sama dalam percobaan kami sendiri. Saat melatih model pratinjau kami, menghapus REPA setelah sekitar 200K langkah secara nyata meningkatkan “feel” kualitas gambar secara keseluruhan, tekstur, micro-contrast, dan detail halus terus menajam alih-alih terlihat sedikit pudar. Untuk alasan itu, kami juga merekomendasikan untuk memperlakukan penyelarasan representasi sebagai perancah sementara. Gunakan itu untuk mendapatkan kemajuan awal yang cepat, lalu hentikan setelah beberapa saat setelah fitur generatif model itu sendiri telah menyusul. Kadang, Majikan memang harus tahu kapan membiarkan robot istirahat dari tugas yang terlalu berat.

Alignment di Ruang Laten Token: Membentuk Otak Robot dari Awal

Sejauh ini, “penyelarasan” berarti meregulasi fitur internal generator terhadap teacher beku sambil memperlakukan tokenizer/ruang laten sebagai tetap. Tuas yang lebih langsung adalah membentuk ruang laten itu sendiri sehingga representasi yang disajikan ke backbone flow secara intrinsik lebih mudah dimodelkan, tanpa mengorbankan fidelitas rekonstruksi yang diperlukan untuk pengeditan dan alur kerja hilir.

REPA-E (Leng et al., 2025) membuat ini konkret. Titik awalnya adalah mode kegagalan: jika Anda hanya melakukan backprop loss diffusion/flow ke dalam VAE, tokenizer dengan cepat mempelajari laten yang sangat mudah untuk denoiser, yang bahkan dapat menurunkan kualitas generasi akhir. Perbaikan REPA-E adalah resep pelatihan dua sinyal:

  • Pertahankan loss diffusion, tetapi terapkan stop-gradient sehingga hanya memperbarui model diffusion latent (bukan VAE);
  • Perbarui kedua VAE dan model diffusion menggunakan loss alignment REPA end-to-end.

Berkat dua trik ini, tokenizer secara eksplisit dioptimalkan untuk menghasilkan laten yang menghasilkan penyelarasan yang lebih tinggi dan generasi yang secara empiris lebih baik. Secara paralel, pekerjaan FLUX.2 AE dari Black Forest Labs membingkai desain laten sebagai trade-off antara kemampuan belajar, kualitas, dan kompresi. Argumen inti mereka adalah bahwa meningkatkan kemampuan belajar membutuhkan injeksi struktur semantik ke dalam representasi, daripada memperlakukan tokenizer sebagai modul kompresi murni. Hal ini memotivasi melatih kembali ruang laten untuk secara eksplisit menargetkan “kemampuan belajar yang lebih baik dan kualitas gambar yang lebih tinggi secara bersamaan”. Mereka tidak membagikan resep lengkap, tetapi mereka dengan jelas menyatakan ide kuncinya: membuat ruang laten AE lebih mudah dipelajari dengan menambahkan penyelarasan semantik atau representasi, dan secara eksplisit menunjuk pada penyelarasan gaya REPA dengan vision encoder beku sebagai mekanisme yang mereka bangun dan integrasikan ke dalam FLUX.2 AE.

Apa yang Kami Temukan:

Untuk menguji penyelarasan di ruang laten, kami membandingkan dua autoencoder yang telah dilatih sebelumnya sebagai tokenizer drop-in untuk backbone flow yang sama: REPA-E-VAE (di mana kami memang menambahkan tujuan penyelarasan REPA, seperti dalam makalah) dan Flux2-AE (di mana kami tidak menambahkan REPA, mengikuti rekomendasi mereka). Hasilnya, jujur, sangat mengesankan, baik secara kuantitatif maupun kualitatif. Dalam sampel, kesenjangan langsung terlihat: generasi menunjukkan struktur global yang lebih koheren dan tata letak yang lebih bersih, dengan artefak “pelatihan awal” yang jauh lebih sedikit.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.20 0.41 0.39 3.95
Flux2-AE 12.07 0.09 0.08 1.79
REPA-E-VAE 12.08 0.26 0.18 3.39

Poin mengejutkan pertama adalah bahwa kedua intervensi ruang laten menurunkan FID sekitar 6 poin (18.20 menjadi sekitar 12.08), yang merupakan lompatan yang jauh lebih besar daripada yang biasanya kita dapatkan dari “hanya” menyelaraskan fitur perantara. Ini sangat mendukung ide inti: jika tokenizer menghasilkan representasi yang secara intrinsik lebih mudah dipelajari, model flow mendapatkan manfaat di mana-mana.

Kedua AE kemudian berperilaku cukup berbeda dalam detailnya. Flux2-AE mendominasi sebagian besar metrik (CMMD dan DINO_MMD sangat rendah), tetapi ia datang dengan penalti throughput yang besar: batches/sec turun dari 3.95 menjadi 1.79. Dalam kasus kami, perlambatan ini dijelaskan oleh faktor-faktor praktis yang juga mereka tekankan: model ini lebih berat, dan juga menghasilkan laten yang lebih besar (32 saluran), yang meningkatkan jumlah pekerjaan yang harus dilakukan oleh diffusion backbone per langkah. REPA-E-VAE adalah pilihan yang “seimbang”: ia mencapai FID yang pada dasarnya sama dengan Flux2-AE sambil menjaga throughput jauh lebih dekat ke baseline (3.39 batches/sec).

Baseline Flux2-AE REPA-E-VAE
Baseline sample FLUX2_AE sample REPA-E sample

Training Objectives: Ketika Robot Harus Diarahkan dengan Jelas

Arsitektur memberi Anda kapasitas, tetapi tujuan pelatihan adalah yang memutuskan bagaimana kapasitas itu digunakan. Dalam praktiknya, perubahan kecil pada loss seringkali memiliki efek yang berlebihan pada kecepatan konvergensi, fidelitas kondisional, dan seberapa cepat model “mengunci” struktur global. Di bagian-bagian di bawah ini, kita akan membahas tujuan-tujuan yang kami uji di atas pengaturan rectified flow baseline kami, dimulai dengan modifikasi yang sederhana namun secara mengejutkan efektif: Contrastive Flow Matching.

Contrastive Flow Matching (Stoica et al., 2025): Bikin Robot Lebih Peka Konteks

PRX block

Contrastive flow matching membuat alur kondisi kelas lebih berbeda, mengurangi tumpang tindih yang terlihat pada standard flow matching, dan menghasilkan gambar berkualitas lebih tinggi yang lebih baik merepresentasikan setiap kelas. Gambar dari arXiv:2506.05350.

Flow matching memiliki properti yang bagus dalam kasus tanpa syarat: lintasan secara implisit didorong untuk menjadi unik (aliran tidak boleh berpotongan). Tetapi begitu kita beralih ke generasi kondisional (dikondisikan kelas atau teks), kondisi yang berbeda masih dapat menginduksi aliran yang tumpang tindih, yang secara empiris muncul sebagai perilaku “rata-rata”: spesifisitas kondisional yang lebih lemah, dan struktur global yang lebih keruh. Contrastive flow matching mengatasi ini secara langsung dengan menambahkan istilah kontras yang mendorong aliran kondisional menjauh dari aliran lain dalam batch. Intinya: cocokkan lintasan Anda sendiri, dan tidak kompatibel dengan lintasan orang lain.

Para penulis menunjukkan bahwa contrastive flow matching menghasilkan lintasan yang lebih diskriminatif dan ini diterjemahkan menjadi keuntungan kualitas dan efisiensi: konvergensi lebih cepat (dilaporkan hingga 9× lebih sedikit iterasi pelatihan untuk mencapai FID serupa) dan lebih sedikit langkah pengambilan sampel (dilaporkan hingga 5× lebih sedikit langkah denoising) pada eksperimen ImageNet dan CC3M. Keuntungan utama adalah bahwa tujuannya hampir merupakan pengganti langsung: Anda tetap menggunakan loss flow-matching yang biasa, lalu menambahkan satu istilah “push-away” kontras menggunakan sampel lain dalam batch yang sama sebagai negatif, yang memberikan pengawasan ekstra tanpa memperkenalkan model pass tambahan.

Apa yang Kami Temukan:

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.20 0.41 0.39 3.95
Contrastive-FM 20.03 0.40 0.36 3.75

Pada percobaan ini, contrastive flow matching menghasilkan peningkatan kecil tetapi terukur pada metrik berbasis representasi: CMMD dari 0.41 → 0.40 dan DINO-MMD dari 0.39 → 0.36. Besarnya peningkatan lebih kecil dari yang dilaporkan makalah tentang ImageNet, yang tidak terlalu mengejutkan: pengkondisian teks jauh lebih kompleks daripada kelas diskrit, dan distribusi data pelatihan kemungkinan besar kurang “terpisah” daripada ImageNet, membuat sinyal kontras lebih sulit dieksploitasi.

Kami tidak melihat peningkatan FID dalam eksperimen spesifik ini (sedikit memburuk), tetapi biaya throughput dapat diabaikan dalam praktiknya (3.95 → 3.75 batches/sec). Mengingat kesederhanaan perubahan dan pergerakan yang konsisten ke arah yang benar untuk metrik pengkondisian/representasi, kami kemungkinan masih akan mempertahankan contrastive flow matching dalam pipeline pelatihan kami sebagai regularisasi berbiaya rendah.

JiT (Li and He, 2025): Kembali ke Dasar, Biarkan Robot Bekerja Lebih Simpel

Back to Basics: Let Denoising Generative Models Denoise mungkin merupakan salah satu makalah terbaru favorit kami di ruang difusi karena ini bukan trik baru tetapi pengaturan ulang: berhenti meminta jaringan untuk memprediksi kuantitas off-manifold (derau atau kecepatan) dan biarkan saja menghilangkan derau. Sebagian besar model difusi dan alir modern melatih jaringan untuk memprediksi derau ε arepsilon atau kuantitas campuran seperti kecepatan vv. Di bawah asumsi manifold, gambar alami berada pada manifold berdimensi rendah, sementara ε arepsilon dan vv secara inheren off-manifold, sehingga memprediksi keduanya bisa menjadi masalah pembelajaran yang lebih sulit dari yang terlihat. Intinya: jangan minta robot memprediksi hal-hal yang ‘di luar nalar’ alaminya.

PRX block

Di bawah asumsi manifold, gambar bersih berada di manifold data sementara derau dan kecepatan tidak. Dengan demikian, melatih model untuk memprediksi gambar bersih secara fundamental lebih mudah daripada melatihnya untuk memprediksi target seperti derau. Gambar dari arXiv:2511.13720.

Formulasi ini membuat masalah pembelajaran jauh lebih mudah dalam dimensi tinggi: alih-alih memprediksi derau atau kecepatan (yang pada dasarnya tidak terbatas di ruang piksel), jaringan memprediksi estimasi gambar bersih xx, yaitu, sesuatu yang berada pada manifold data. Dalam praktiknya, ini memungkinkan untuk melatih Transformer patch besar langsung pada piksel tanpa VAE atau tokenizer sambil menjaga optimisasi tetap stabil dan jumlah total token tetap dapat dikelola.

Apa yang Kami Temukan:

Kami pertama kali mengevaluasi prediksi x dalam pengaturan yang sama dengan eksperimen tujuan lainnya, yaitu melatih di ruang laten FLUX pada resolusi 256×256.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.20 0.41 0.39 3.95
X-Pred 16.80 0.54 0.49 3.95

Dalam rezim ini, manfaat prediksi x tidak jelas. Sementara FID sedikit meningkat dibandingkan dengan baseline, baik CMMD maupun DINO-MMD menurun secara nyata, dan throughput tidak berubah. Ini menunjukkan bahwa, saat bekerja di ruang laten yang sudah terstruktur dengan baik, memprediksi gambar bersih alih-alih kecepatan tidak secara konsisten mendominasi tujuan baseline, dan bahkan dapat merugikan penyelarasan tingkat representasi. Namun, eksperimen ini bukanlah tempat prediksi x benar-benar bersinar.

Bagian yang menarik adalah bahwa prediksi x menstabilkan pelatihan dimensi tinggi, membuatnya layak untuk menggunakan patch yang lebih besar dan menghilangkan derau langsung di ruang piksel, tanpa VAE, pada resolusi yang jauh lebih tinggi. Menggunakan JiT, kami melatih model langsung pada gambar 1024×1024 dengan patch 32×32, alih-alih beroperasi di ruang laten terkompresi. Meskipun resolusi jauh lebih tinggi dan tidak adanya tokenizer, optimisasi tetap stabil dan cepat. Kami mencapai FID 17.42, DINO_MMD 0.56, dan CMMD 0.71 dengan throughput 1.33 batches/sec. Hasil ini luar biasa: pelatihan langsung pada gambar 1024×1024 hanya sekitar 3× lebih lambat daripada pelatihan di ruang laten 256×256, sambil beroperasi pada piksel mentah. Ini sangat mendukung klaim inti dari Back to Basics: membiarkan model memprediksi gambar bersih membuat masalah pembelajaran secara signifikan lebih mudah, dan membuka pintu untuk pelatihan teks-ke-gambar resolusi tinggi tanpa tokenizer tanpa biaya komputasi yang terlalu mahal. Karena itu, kami berencana untuk menggunakan formulasi ini sebagai backbone eksperimen “balapan cepat” kami yang akan datang, untuk melihat seberapa jauh resep lengkap dapat mendorongnya ketika dikombinasikan dengan teknik efisiensi dan sparsifikasi lainnya yang dibahas di atas. Kekurangan utama untuk saat ini adalah pendekatan ini tidak memungkinkan kami untuk mendapatkan manfaat dari properti yang sangat bagus dari FLUX.2 VAE; mengeksplorasi apakah beberapa bentuk penyelarasan atau pelatihan hibrida dapat membuat kedua dunia ini kompatibel adalah arah terbuka yang akan kami selidiki lebih lanjut.

Sample 1 Sample 2 Sample 3

Baca juga artikel menarik lainnya di kategori Update Algoritma.

Token Routing dan Sparsifikasi: Biar Robot Tidak Terlalu Banyak Mikir (dan Hemat Listrik)

Sejauh ini, sebagian besar teknik yang kita bahas berfokus pada membuat setiap langkah pelatihan lebih efektif: meningkatkan tujuan, membentuk representasi, atau mempercepat konvergensi. Tuas berikutnya bersifat ortogonal: membuat setiap langkah lebih murah. Untuk transformer diffusion dan flow, biaya dominan adalah menjalankan tumpukan transformer yang dalam di atas sejumlah besar token gambar/laten di mana perhatian berskala buruk dengan panjang urutan. Metode sparsifikasi token menargetkan ini secara langsung dengan memastikan bahwa hanya sebagian kecil token yang membayar harga komputasi penuh di bagian-bagian jaringan yang mahal, sambil tetap mempertahankan aliran informasi yang cukup untuk menjaga kualitas tetap tinggi.

Dua makalah terbaru menggambarkan alternatif yang lebih bersih: alih-alih menghapus informasi, mereka mengatur ulang di mana komputasi dihabiskan. TREAD dan SPRINT memiliki tujuan tingkat tinggi yang sama yaitu menghindari komputasi kedalaman penuh untuk setiap token di setiap lapisan, tetapi mereka mengejarnya melalui strategi komplementer.

TREAD (Krause et al., 2025): Jalan Pintas Cerdas untuk Robot

PRX block

TREAD meningkatkan efisiensi pelatihan dengan mengarahkan token di sekitar lapisan tertentu. Gambar dari arXiv:/2501.04765.

Ide inti TREAD adalah mengganti pengurangan komputasi melalui kehilangan informasi, seperti menjatuhkan atau menutupi token, dengan pengurangan komputasi melalui transportasi informasi menggunakan token routing. Ini memperkenalkan route: untuk setiap sampel pelatihan, secara acak memilih sebagian kecil token dan sementara mem-bypass sepotong lapisan yang berdekatan, lalu memasukkan kembali token-token tersebut nanti. Token tidak dibuang. Sebaliknya, mereka menghindari membayar biaya kedalaman penuh. Dalam praktiknya, makalah ini menunjukkan bahwa mengarahkan hingga 50% token tetap efektif, sementara tingkat yang lebih tinggi mulai menurunkan kualitas.

SPRINT (Park et al., 2025): Robot Lebih Agresif, Akal Manusia Tetap Wajib Ada

PRX block

SPRINT melangkah lebih jauh dari TREAD dengan menjatuhkan sebagian besar token di lapisan tengah sambil menjaga jalur residual padat untuk mempertahankan informasi resolusi penuh. Gambar dari arXiv:/2510.21986.

SPRINT memperluas pendekatan ini dengan memperkenalkan sparsitas di bagian-bagian jaringan yang paling mahal secara komputasi, sambil mempertahankan jalur informasi yang padat. Resepnya sengaja terstruktur: jalankan lapisan awal yang padat di atas semua token untuk membangun fitur tingkat rendah yang andal, lalu hanya simpan sebagian token melalui lapisan tengah yang jarang di mana komputasi paling berat, dan akhirnya kembali padat dengan memperluas kembali dan menggabungkan fitur dalam yang jarang dengan aliran residual padat dari lapisan awal, sebelum menghasilkan output. Perbedaan utama dari TREAD adalah dari mana kekokohan berasal: TREAD menjaga token “hadir” tetapi lebih dangkal (routing), sedangkan SPRINT memungkinkan banyak token absen di blok tengah, mengandalkan jalur residual padat untuk mempertahankan informasi resolusi penuh. Inilah yang memungkinkan sparsifikasi yang lebih agresif dalam praktik. Makalah ini mengeksplorasi rasio penurunan sekitar 75%, berlawanan dengan ~50% untuk TREAD.

Apa yang Kami Temukan:

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.20 0.41 0.39 3.95
TREAD 21.61 0.55 0.41 4.11
SPRINT 22.56 0.72 0.42 4.20

Dalam pengaturan laten standar 256×256 kami, kedua metode memberikan manfaat utama yang kami targetkan. TREAD naik dari 3.95 → 4.11 batches/sec, dan SPRINT mendorongnya sedikit lebih jauh ke 4.20 batches/sec. Biayanya adalah bahwa di bawah protokol evaluasi kami, throughput ekstra ini datang dengan kehilangan kualitas yang jelas: FID naik dari 18.20 menjadi 21.61 (TREAD) dan 22.56 (SPRINT), dengan pola yang sama diamati pada CMMD dan DINO-MMD.

Secara nilai nominal, routing menghasilkan peningkatan throughput sekitar 7–9% yang sederhana, tetapi datang dengan metrik yang lebih buruk dalam benchmark ini, dengan SPRINT (skema yang lebih agresif) menurunkan kualitas sedikit lebih banyak daripada TREAD. Satu peringatan penting adalah bahwa model yang token-sparse/routed cenderung mendapatkan skor lebih buruk di bawah Classifier-Free Guidance (CFG) standar, dan efek ini kemungkinan diperkuat di sini karena percobaan ini masih relatif undertrained dalam pengaturan kami. Para penulis Guiding Token-Sparse Diffusion Models (Krause et al., 2025) berpendapat ini sebagian adalah ketidaksesuaian evaluasi: routing mengubah kapasitas efektif model, dan CFG “kondisional vs. tanpa syarat” sederhana seringkali menjadi kurang efektif, yang dapat secara artifisial mengurangi kualitas. Kami sengaja tidak menggunakan skema panduan khusus untuk menjaga benchmark kami konsisten di seluruh metode, dan pada tahap ini juga tidak akan terlalu berarti untuk memperlakukan model sparse sebagai “versi buruk dari dirinya sendiri” untuk panduan. Akibatnya, kami menganggap angka-angka ini berguna secara directional, tetapi masih pesimis dan layak ditafsirkan dengan hati-hati.

Pada 256×256, routing hanya memberikan keuntungan sederhana karena model memproses token yang relatif sedikit. Pada 1024×1024, gambaran berubah total. Dengan 1024 token, routing akhirnya menargetkan biaya dominan, dan hasilnya sangat mencolok.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 17.42 0.71 0.56 1.33
TREAD 14.10 0.46 0.37 1.64
SPRINT 16.90 0.51 0.41 1.89

Baik TREAD dan SPRINT memberikan peningkatan throughput yang besar di atas baseline dense, dengan SPRINT mendorong kecepatan paling jauh. Lebih penting lagi, kali ini keuntungan tidak datang dengan mengorbankan kualitas, tetapi justru sebaliknya. TREAD khususnya menonjol, dengan penurunan FID yang dramatis (17.42 → 14.10) di samping peningkatan yang kuat pada CMMD dan DINO-MMD. SPRINT sedikit lebih agresif dan sedikit lebih berisik dalam kualitas, tetapi masih jelas meningkatkan dibandingkan baseline sambil menjadi pilihan tercepat. Ini membuktikan bahwa di skala besar, Majikan harus cerdas dalam mengelola beban kerja robot, jangan sampai malah boros tanpa hasil.

Ngomong-ngomong soal kecepatan dan efisiensi, sebagai seorang Majikan AI, Anda perlu juga memahami bagaimana infrastruktur AI ini dibangun. Penasaran bagaimana bos Nvidia membangun “otot” di balik kecerdasan buatan? Coba tengok artikel kami: Bos Nvidia: Bangun Infrastruktur AI Terbesar Sepanjang Sejarah, Ciptakan Jutaan Pekerjaan! (Asalkan Kamu Siap Jadi Majikan, Bukan Babu Mesin)

Data: Makanan Bergizi Agar Robot Tumbuh Cerdas

Setelah membahas penyelarasan representasi, tujuan pelatihan inti, dan token routing, kami beralih ke sumbu keempat yang secara konsisten penting dalam praktik: data. Kami menemukan bahwa pilihan data pelatihan, termasuk bagaimana ia dijelaskan melalui caption, dapat memengaruhi lintasan pelatihan sebanyak teknik optimisasi. Di bawah ini adalah tiga eksperimen data konkret yang secara konsisten menggerakkan jarum dalam pengaturan kami.

Long vs. Short Captions: Jangan Pelit Informasi ke Robot!

Caption adalah bagian penting dari set pelatihan: untuk model teks-ke-gambar, itu bukan hanya metadata, itu adalah pengawasan. Makalah penelitian DALL·E 3 (Betker et al., 2023) menunjukkan bahwa caption yang lebih kaya dapat menjadi salah satu pengungkit terkuat untuk meningkatkan sinyal pelatihan dan kepatuhan prompt. Untuk mengisolasi efek dalam pengaturan kami, kami menjaga semuanya tetap sama dan hanya mengubah gaya caption untuk membandingkan:

  • Long, descriptive captions (baseline kami): caption multi-clause yang menyebutkan komposisi, atribut, pencahayaan, bahan, dan hubungan.

    Contoh
    “A photograph depicts a fluffy lop-eared rabbit sitting on a weathered wooden surface outdoors. The rabbit is predominantly white with patches of light brown and tan fur, particularly on its head and ears. Its ears droop noticeably, and its fur appears soft and thick. The rabbit’s eyes are dark and expressive. It is positioned slightly off-center, facing towards the left of the frame. Behind the rabbit, slightly out of focus, is a miniature dark red metal wheelbarrow. A partially visible orange apple sits to the left of the rabbit. Fallen autumn leaves, predominantly reddish-brown, are scattered around the rabbit and apple on the wooden surface. The background is a blurred but visible expanse of green grass, suggesting an outdoor setting. The lighting is soft and natural, likely diffused daylight, casting no harsh shadows. The overall atmosphere is calm, peaceful, and autumnal. The aesthetic is rustic and charming, with a focus on the rabbit as the main subject. The color palette is muted and natural, consisting mainly of whites, browns, oranges, and greens. The style is naturalistic and straightforward, without any overt artistic manipulation. The vibe is gentle and heartwarming.”

  • Short, one-line captions: deskripsi minimal dengan struktur yang jauh lebih sedikit.

    Contoh
    “A rabbit sitting on top of a wooden table.”

Apa yang Kami Temukan:

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Baseline 18.20 0.41 0.39 3.95
Short-Captions 36.84 0.98 1.14 3.95

Hasilnya tidak ambigu: beralih ke caption pendek sangat merugikan konvergensi di semua metrik. Caption panjang memberikan sinyal pengawasan yang lebih kaya: di luar kepatuhan prompt, ada alasan optimisasi yang sangat praktis. Lebih banyak token biasanya berarti lebih banyak informasi, dan karenanya lebih banyak sinyal pembelajaran untuk denoiser. Ketika teks pengkondisian menentukan komposisi, atribut, pencahayaan, bahan, dan hubungan, model mendapatkan “target” yang lebih tajam untuk apa yang harus dilestarikan dan disempurnakan oleh lintasan denoising, terutama di awal pelatihan.

Paradoks lucunya adalah bahwa detail ekstra ini seringkali membuat masalah pembelajaran lebih mudah, bukan lebih sulit: secara intuitif, orang mungkin berharap prompt yang lebih panjang, dengan lebih banyak atribut, batasan, dan hubungan, akan meningkatkan kompleksitas dan membebani model. Dalam praktiknya, yang terjadi justru sebaliknya. Caption pendek meninggalkan banyak derajat kebebasan yang tidak ditentukan, memaksa model untuk belajar di bawah ambiguitas dan secara implisit merata-ratakan di berbagai interpretasi yang masuk akal. Caption panjang melenyapkan ketidakpastian itu dengan mengubah pilihan implisit menjadi batasan eksplisit, memungkinkan denoiser untuk memfokuskan kapasitasnya pada penyempurnaan solusi yang terdefinisi dengan baik alih-alih menebak apa yang penting. Jadi, jangan malas memberi perintah yang detail kepada robot Anda, Majikan!

Bootstrapping dengan Gambar Sintetis: Robot Juga Bisa Belajar dari Replika

Pertanyaan penelitian terkait data lainnya yang kami jelajahi adalah apakah korpus sintetis berbiaya rendah dapat mempercepat pelatihan awal dibandingkan dengan korpus asli dengan ukuran yang sama. Untuk benchmark ini, kami melatih model pada dataset gambar asli yang dikumpulkan dari Pexels dan membandingkannya dengan Baseline kami yang dilatih pada data sintetis yang dihasilkan dengan MidjourneyV6, keduanya memiliki sekitar 1 juta gambar. Kami mengevaluasi kedua percobaan terhadap set referensi Unsplash yang sama, yang secara eksklusif terdiri dari gambar asli.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓ batches/sec ↑
Synthetic images 18.20 0.41 0.39 3.95
Real images 16.6 0.5 0.46 3.95

Model yang dilatih secara sintetis mendapatkan skor lebih baik pada CMMD dan DINO-MMD, sementara model yang dilatih pada gambar asli mencapai FID yang lebih rendah. Alih-alih kontradiksi, pemisahan ini sebagian besar mencerminkan apa yang ditekankan oleh metrik-metrik ini. FID sangat sensitif terhadap statistik gambar tingkat rendah: tekstur halus, detail frekuensi tinggi, pola derau, dan ketidakaturan halus dari fotografi asli. Karena referensi evaluasi kami terdiri dari gambar asli, model yang dilatih pada foto asli secara alami cocok dengan statistik tersebut lebih dekat, yang diterjemahkan menjadi FID yang lebih baik. Gambar sintetis, sebaliknya, seringkali menunjukkan tanda tangan frekuensi tinggi yang sedikit berbeda, tepi yang lebih bersih, tekstur mikro yang lebih halus, derau yang lebih seragam, yang hampir tidak terlihat secara kualitatif tetapi masih dihukum oleh metrik distribusi seperti FID.

Secara kualitatif, perbedaan ini mudah dikenali. Model yang dilatih pada data sintetis cenderung menghasilkan gambar dengan struktur global yang lebih bersih dan koherensi komposisi dan objek yang lebih kuat, tetapi juga menunjukkan penampilan yang lebih sintetis, dicirikan oleh tekstur yang lebih halus dan derau fotografi yang berkurang. Sebaliknya, model yang dilatih pada gambar asli lebih baik menangkap tekstur yang tidak beraturan dan berbutir halus yang khas dari foto alami, meskipun seringkali membutuhkan lebih banyak pelatihan untuk mencapai struktur global yang sebanding.

Satu penjelasan yang masuk akal mengapa data sintetis tetap sangat efektif di awal adalah karena ia mengekspos model ke berbagai tabrakan komposisi yang lebih luas: pasangan objek, atribut, gaya, dan sudut pandang yang tidak biasa yang jarang terjadi bersama-sama dalam dataset alami. Meskipun ini dapat merugikan realisme pada tingkat tekstur, hal itu memaksa model untuk menjelaskan ruang kombinasi yang lebih luas, yang tampaknya membantu dengan pemisahan awal dan pembelajaran struktur.

Considered jointly, this suggests a simple but practical strategy: synthetic data is an efficient way to bootstrap training and lock in global structure quickly, while real images remain important later on if matching photographic texture statistics is the priority.

Sebagai Majikan yang bijak, Anda tentu tahu pentingnya data dan cara robot belajar. Untuk memperdalam wawasan Anda tentang bagaimana para ahli AI berpikir tentang arah masa depan, jangan lewatkan artikel ini: Yann LeCun, Sang Pembangkang AI: LLM Mati Kutu, “World Models” Juru Selamat? Plus, Harga Litium Bikin Jantung Berdebar!

Model trained with real data
dog_cropped kid_cropped bike_cropped media_images_txt2img_06_ An exquisite crystal bottle of luxury perfume resting on a mirrored surface. Soft, diffuse..._100000_9a3d35747cdb5d20c649 media_images_txt2img_00_ A curious tabby cat perched on a moss-covered log in a lush, misty forest at dawn. Sunbeam..._100000_558072142d560edc7553 people_cropped
Model trained with synthetic data media_images_txt2img_17_ The image is a photography of a calm, serene dog in a meditative pose, sitting on a lush g..._100000_428d53247e6cac4f09eb(1) media_images_txt2img_08_ A carefree young child with tousled hair and rosy cheeks, laughing joyfully while running ..._100000_4e389f3f00e6bc85e55a media_images_txt2img_24_ An old, cobblestone street in a European city. Colorful buildings with flower boxes in the..._100000_2db1f8aece2aa6bbeb36 media_images_txt2img_06_ An exquisite crystal bottle of luxury perfume resting on a mirrored surface. Soft, diffuse..._100000_8b3a0abb1807c27ad5a4 media_images_txt2img_00_ A curious tabby cat perched on a moss-covered log in a lush, misty forest at dawn. Sunbeam..._100000_7cb7d005b969e32c3b81 media_images_txt2img_20_ Photography of a bustling city street at dusk. Neon signs illuminate the scene, reflecting..._100000_cc633614b68c98ab11e3

SFT dengan Alchemist: Robot Belajar Estetika dari Data Pilihan

Terakhir, kami bereksperimen dengan tahapan Supervised Fine-Tuning (SFT) yang ditargetkan menggunakan Alchemist, sebuah dataset ringkas yang secara eksplisit dikurasi untuk dampak tinggi. Alchemist sengaja dibuat kecil (3.350 pasangan gambar-teks), tetapi dibangun melalui pipeline kurasi canggih yang dimulai dari kumpulan berskala web dan secara bertahap menyulingnya menjadi sampel yang luar biasa secara visual.

Dalam pengaturan kami, kami menyempurnakan model pratinjau kami selama 20K langkah di Alchemist. Meskipun ukuran dataset kecil, ia memiliki efek yang besar: ia menambahkan “lapisan gaya” yang berbeda dengan komposisi yang lebih baik, polesan fotografi yang lebih kaya, dan pemandangan yang lebih kaya tanpa dampak yang jelas pada generalisasi. Ini membuktikan bahwa Majikan yang cerdas tahu cara memilih “guru les” terbaik untuk robotnya, tidak melulu soal kuantitas.

Sampel di bawah ini menunjukkan perbandingan side-by-side generasi dari model dasar yang sama, sebelum dan sesudah tahapan fine-tuning Alchemist.

Without SFT
With SFT

Lebih Banyak Tips Berguna untuk Pelatihan: Karena Robot Juga Butuh Perhatian Detail

Terakhir, kami akan secara singkat membahas dua detail pelatihan praktis yang ternyata lebih penting dari yang kami duga. Faktor-faktor ini mudah diabaikan dan dalam kasus kami, mereka memiliki dampak yang jelas pada konvergensi dan kualitas gambar akhir.

Muon Optimizer: Ketika Robot Perlu Otak yang Lebih Tajam

Kami umumnya menggunakan AdamW untuk benchmark kami karena dapat diprediksi dan mudah dibandingkan di seluruh percobaan. Namun, akhir-akhir ini, kami telah melihat minat baru pada optimizer yang mencoba berperilaku lebih seperti preconditioner yang baik tanpa semua overhead full-overhead metode orde kedua. Salah satu contoh terbaru adalah Muon (Jordan et al., 2024), yang, pada tingkat tinggi, mencoba meningkatkan optimisasi dengan menerapkan langkah pembaruan yang lebih terkondisi, seringkali menghasilkan konvergensi yang lebih cepat dan kemajuan yang lebih bersih di awal pelatihan.

Dalam pengaturan kami, Muon adalah salah satu kasus langka di mana perubahan optimizer menghasilkan efek yang langsung terlihat pada metrik. Ini membuktikan bahwa Majikan perlu jeli memilih alat yang tepat, bukan hanya yang populer.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓
Baseline 18.20 0.41 0.39
Muon 15.55 0.36 0.35

Untuk eksperimen ini, kami menggunakan implementasi PyTorch resmi Muon, yang saat ini hanya mendukung pelatihan Distributed Data Parallel (DDP). Jika Anda menjalankan Fully Sharded Data Parallel (FSDP), ada varian komunitas yang tersedia; misalnya di sini. Meskipun kami menahan diri dari kesimpulan luas berdasarkan satu benchmark, hasil ini menunjukkan bahwa pilihan optimizer melampaui pertimbangan stabilitas dan dapat menghasilkan keuntungan nyata dalam waktu-ke-kualitas.

Precision Gotcha: Kesalahan Fatal Robot yang Bikin Pusing Majikan

Kami akhirnya mengidentifikasi kesalahan dalam pengaturan kami, di mana bobot denoiser secara keliru disimpan dalam bfloat16 selama periode waktu tertentu. Agar jelas, menggunakan autocast BF16 sangat bagus. Menjalankan forward dan backward pass dalam BF16 atau mixed precision adalah standar dan biasanya yang Anda inginkan untuk kecepatan dan memori. Masalah muncul dari menjaga parameter dalam presisi BF16, yang secara negatif memengaruhi operasi yang sensitif secara numerik.

Dalam praktiknya, beberapa lapisan dan operasi jauh kurang toleran terhadap pengurangan presisi parameter:

  • lapisan normalisasi (misalnya statistik LayerNorm / RMSNorm),
  • jalur attention softmax/logits,
  • RoPE,
  • status internal optimizer / dinamika pembaruan.

image

Method FID ↓ CMMD ↓ DINO-MMD ↓
Baseline 18.20 0.41 0.39
BF16 weights (bug) 21.87 0.61 0.57

Jadi aturan yang kami ikuti dengan sangat ketat sekarang adalah: gunakan autocast BF16 untuk komputasi, tetapi jaga bobot (dan status optimizer) dalam FP32 atau setidaknya pastikan modul yang sensitif secara numerik tetap FP32. Ini bukan trik yang glamor tetapi ini persis jenis detail “senyap” yang dapat memakan biaya beberapa hari kerja jika Anda tidak menyadarinya lebih awal. Robot memang perlu diperhatikan sampai ke detail terkecil, atau dia bisa “sakit keras”!

Agar Anda tidak ikutan “sakit keras” dalam mengelola visual AI, ada baiknya Anda menguasai ilmunya. Belajar AI Visual akan membekali Anda agar tidak kalah canggih dari robot.

Selain itu, untuk para Majikan yang ingin lebih dalam mengendalikan AI dan menciptakan konten profesional secara mandiri, kami punya rekomendasi khusus: AI Master akan membantu Anda tetap menjadi penguasa teknologi, bukan babu. Dan jika Anda ingin menghasilkan konten profesional tanpa perlu membayar mahal, Creative AI Pro adalah solusinya.

Summary: Jadi, Robot Gambar Ini Butuh Apa Sih?

Kami menjalankan serangkaian ablasi sistematis pada pelatihan PRX, membandingkan berbagai pilihan optimisasi, representasi, efisiensi, dan data terhadap baseline flow-matching yang bersih menggunakan metrik kualitas dan throughput.

Keuntungan terbesar berasal dari penyelarasan: REPA meningkatkan konvergensi awal (terbaik digunakan sebagai burn-in, lalu dimatikan), dan laten/tokenizer yang lebih baik (REPA-E/FLUX2-AE) memberikan lompatan besar dalam kualitas dengan trade-off kecepatan yang jelas. Penyesuaian tujuan bervariasi — contrastive FM sedikit membantu, sementara prediksi x paling penting dengan memungkinkan pelatihan piksel 1024² yang stabil. Token routing (TREAD/SPRINT) kecil pada 256² tetapi menjadi kemenangan besar pada resolusi tinggi. Data dan detail praktis juga penting: caption panjang sangat penting, data sintetis vs. asli menggeser tekstur vs. struktur, SFT kecil menambah polesan, Muon membantu, dan bobot yang disimpan dalam BF16 secara diam-diam merugikan pelatihan. Jadi intinya, robot ini canggih, tapi Majikan tetap harus punya akal untuk mengarahkannya.

Itu dia untuk Bagian 2! Jika Anda ingin bermain dengan checkpoint publik sebelumnya dari seri ini, PRX-1024 T2I beta masih tersedia di sini.

Kami sangat antusias dengan apa yang akan datang: dalam beberapa minggu mendatang kami akan merilis kode sumber lengkap dari framework pelatihan PRX, dan kami akan melakukan “balapan cepat” publik selama 24 jam di mana kami menggabungkan ide-ide terbaik dari postingan ini ke dalam satu percobaan dan melihat seberapa jauh resep lengkap dapat berjalan dalam satu hari.

Jika Anda sampai sejauh ini, pertama-tama terima kasih banyak atas minat Anda. Selanjutnya, kami akan sangat senang jika Anda bergabung dengan komunitas Discord kami di mana kami membahas kemajuan dan hasil PRX, bersama dengan segala sesuatu yang berkaitan dengan difusi dan model teks-ke-gambar.

Artikel ini dirangkum dari sumber asli di Hugging Face Blog.
Gambar oleh: Hugging Face Archive

Leave a Reply

Your email address will not be published. Required fields are marked *