- Program Makan Bergizi Gratis dari Presiden Prabowo Siap Dijalankan di Lumajang
- Kecelakaan di Wonorejo Lumajang, Tabrakan Terjadi Akibat Dugaan Mengantuk Saat Mengemudi
- Kegiatan Posyandu Dusun Pocok Didampingi oleh Babinsa Sawaran Lor Lumajang
- Warga dan Pemancing Dihimbau Waspada Setelah Penemuan Buaya di Pantai Tempursari
- Apel Siaga Bencana Hidrometeorologi 2025 Digelar di Lumajang
- Penetapan Calon Terpilih Bupati dan Wakil Bupati Lumajang oleh KPU Pasca Pilkada 2024
- Rapat Pleno Terbuka KPU untuk Menetapkan Pasangan Calon Bupati dan Wakil Bupati Lumajang
- Peningkatan Patroli Kecelakaan Lalu Lintas oleh Satlantas Polres Lumajang
- Langkah Pemerintah untuk Mengatasi Masalah Ternak yang Terjangkit Penyakit Menular Kepada Manusia (PMK) Ditetapkan di Daerah Terpilih
- Bupati Lumajang Tetapkan Anggaran 3,4 Miliar untuk Pembangunan Infrastruktur Parkir di Pusat Kota
Pendekatan Revolusioner DisTrO dalam Pelatihan AI di Masa Depan
The future of AI training: DisTrO’s game-changing approach https://dailyai.com/2024/08/the-future-of-ai-training-distros-game-changing-approach/
Keterangan Gambar : Pendekatan Revolusio
Inovasi Pelatihan AI dengan DisTrO oleh Nous Research
Grup riset AI, Nous Research, telah mengembangkan sebuah pengoptimal model pelatihan AI yang dapat mengubah cara pelatihan model AI di masa depan. Secara tradisional, pelatihan model AI memerlukan pusat data besar yang dipenuhi dengan GPU seperti NVIDIA H100, serta koneksi cepat untuk menyinkronkan pembaruan parameter antara GPU. Setiap langkah pelatihan memerlukan banyak data yang harus dibagikan di antara ribuan GPU, yang mengharuskan GPU tersebut terhubung secara fisik dan berdekatan.
Namun, dengan DisTrO, pendekatan ini mungkin akan berubah secara drastis. DisTrO-AdamW adalah variasi dari algoritma pengoptimal AdamW yang populer. DisTrO, yang berarti "Pelatihan Terdistribusi Melalui Internet", mengurangi komunikasi antar-GPU yang diperlukan selama pelatihan jaringan saraf besar tanpa mengorbankan kecepatan konvergensi atau akurasi proses pelatihan.
Dalam pengujian empiris, DisTrO-AdamW berhasil mengurangi komunikasi antar-GPU hingga 857 kali lipat. Ini berarti bahwa pendekatan DisTrO dapat melatih model dengan akurasi dan kecepatan yang sebanding, tetapi tanpa memerlukan perangkat keras mahal dengan bandwidth tinggi. Sebagai contoh, selama pra-pelatihan model LLM berukuran 1,2 miliar, DisTrO-AdamW mampu mencocokkan kinerja metode tradisional sambil mengurangi bandwidth yang diperlukan dari 74,4 GB menjadi hanya 86,8 MB per langkah pelatihan.
Implikasi untuk Pelatihan AI
Dampak DisTrO terhadap lanskap AI bisa sangat besar. Dengan mengurangi beban komunikasi, DisTrO memungkinkan pelatihan model besar secara terdesentralisasi. Alih-alih bergantung pada pusat data dengan ribuan GPU, model dapat dilatih menggunakan perangkat keras komersial yang terhubung melalui internet. Bayangkan jika jutaan PC yang tidak terpakai atau rig penambangan Bitcoin yang tidak terpakai dapat bekerja sama untuk melatih model sumber terbuka. DisTrO membuat hal itu mungkin tanpa mengorbankan waktu pelatihan atau akurasi.
Nous Research mengakui bahwa mereka belum sepenuhnya memahami mengapa pendekatan ini bekerja dengan baik, dan penelitian lebih lanjut diperlukan untuk melihat apakah ini dapat diterapkan pada model yang lebih besar. Jika berhasil, pelatihan model besar mungkin tidak lagi dikuasai oleh perusahaan teknologi besar yang memiliki dana untuk pusat data besar. Ini juga dapat mengurangi dampak lingkungan dari pusat data yang boros energi dan air.
Dengan DisTrO, komunitas orang-orang dengan perangkat keras terdistribusi dapat menciptakan 'superkomputer' mereka sendiri untuk melatih model. Ini juga dapat mengurangi upaya pemerintah AS untuk membatasi impor GPU paling kuat ke China. Dalam dunia di mana AI semakin penting, DisTrO menawarkan gambaran masa depan di mana pengembangan alat-alat canggih ini lebih inklusif, berkelanjutan, dan luas.