Pendekatan Revolusioner DisTrO dalam Pelatihan AI di Masa Depan

27 Agu 2024 100 dibaca

Inovasi Pelatihan AI dengan DisTrO oleh Nous Research

Grup riset AI, Nous Research, telah mengembangkan sebuah pengoptimal model pelatihan AI yang dapat mengubah cara pelatihan model AI di masa depan. Secara tradisional, pelatihan model AI memerlukan pusat data besar yang dipenuhi dengan GPU seperti NVIDIA H100, serta koneksi cepat untuk menyinkronkan pembaruan parameter antara GPU. Setiap langkah pelatihan memerlukan banyak data yang harus dibagikan di antara ribuan GPU, yang mengharuskan GPU tersebut terhubung secara fisik dan berdekatan.

Namun, dengan DisTrO, pendekatan ini mungkin akan berubah secara drastis. DisTrO-AdamW adalah variasi dari algoritma pengoptimal AdamW yang populer. DisTrO, yang berarti "Pelatihan Terdistribusi Melalui Internet", mengurangi komunikasi antar-GPU yang diperlukan selama pelatihan jaringan saraf besar tanpa mengorbankan kecepatan konvergensi atau akurasi proses pelatihan.

Dalam pengujian empiris, DisTrO-AdamW berhasil mengurangi komunikasi antar-GPU hingga 857 kali lipat. Ini berarti bahwa pendekatan DisTrO dapat melatih model dengan akurasi dan kecepatan yang sebanding, tetapi tanpa memerlukan perangkat keras mahal dengan bandwidth tinggi. Sebagai contoh, selama pra-pelatihan model LLM berukuran 1,2 miliar, DisTrO-AdamW mampu mencocokkan kinerja metode tradisional sambil mengurangi bandwidth yang diperlukan dari 74,4 GB menjadi hanya 86,8 MB per langkah pelatihan.

Implikasi untuk Pelatihan AI

Dampak DisTrO terhadap lanskap AI bisa sangat besar. Dengan mengurangi beban komunikasi, DisTrO memungkinkan pelatihan model besar secara terdesentralisasi. Alih-alih bergantung pada pusat data dengan ribuan GPU, model dapat dilatih menggunakan perangkat keras komersial yang terhubung melalui internet. Bayangkan jika jutaan PC yang tidak terpakai atau rig penambangan Bitcoin yang tidak terpakai dapat bekerja sama untuk melatih model sumber terbuka. DisTrO membuat hal itu mungkin tanpa mengorbankan waktu pelatihan atau akurasi.

Nous Research mengakui bahwa mereka belum sepenuhnya memahami mengapa pendekatan ini bekerja dengan baik, dan penelitian lebih lanjut diperlukan untuk melihat apakah ini dapat diterapkan pada model yang lebih besar. Jika berhasil, pelatihan model besar mungkin tidak lagi dikuasai oleh perusahaan teknologi besar yang memiliki dana untuk pusat data besar. Ini juga dapat mengurangi dampak lingkungan dari pusat data yang boros energi dan air.

Dengan DisTrO, komunitas orang-orang dengan perangkat keras terdistribusi dapat menciptakan 'superkomputer' mereka sendiri untuk melatih model. Ini juga dapat mengurangi upaya pemerintah AS untuk membatasi impor GPU paling kuat ke China. Dalam dunia di mana AI semakin penting, DisTrO menawarkan gambaran masa depan di mana pengembangan alat-alat canggih ini lebih inklusif, berkelanjutan, dan luas.

Pendekatan Revolusioner DisTrO dalam Pelatihan AI di Masa Depan

Komentar

Artikel Terkait

Matsurika Kanriden: Pemeran dan Tayang Perdana Januari 2027

Demon Slayer: Infinity Castle Rilis Ulang di India Mulai 6 Maret dengan Pemutaran ScreenX

Odekake Kozame Musim 2 Debut 12 April