- Apel Siaga Bencana Hidrometeorologi 2025 Digelar di Lumajang
- Penetapan Calon Terpilih Bupati dan Wakil Bupati Lumajang oleh KPU Pasca Pilkada 2024
- Rapat Pleno Terbuka KPU untuk Menetapkan Pasangan Calon Bupati dan Wakil Bupati Lumajang
- Peningkatan Patroli Kecelakaan Lalu Lintas oleh Satlantas Polres Lumajang
- Langkah Pemerintah untuk Mengatasi Masalah Ternak yang Terjangkit Penyakit Menular Kepada Manusia (PMK) Ditetapkan di Daerah Terpilih
- Bupati Lumajang Tetapkan Anggaran 3,4 Miliar untuk Pembangunan Infrastruktur Parkir di Pusat Kota
- Pantai di Daerah Pesisir Menjadi Tempat Berburu Buaya
- Lumajang Mengadakan Penerapan Sistem Pelaporan Online untuk Meningkatkan Pengelolaan Perhubungan dan Infrastruktur
- Bupati Lumajang Mengunjungi Pemandian Alam yang Diperbaiki untuk Memastikan Kualitas Layanan
- Kebakaran Mobil Terjadi di SPBU Sumberjati Lumajang, Identitas Pemilik Terungkap
Model AI mengalami keruntuhan saat dilatih dengan data yang dihasilkan oleh AI, temuan penelitian.
AI models face collapse when trained on AI-generated data, study finds https://dailyai.com/2024/07/ai-models-face-collapse-when-trained-on-ai-generated-data-study-finds/
Keterangan Gambar : Model AI mengalami k
Sebuah studi terbaru yang dipublikasikan di jurnal Nature mengungkap bahwa model kecerdasan buatan (AI), termasuk model bahasa besar (LLMs), cepat menurun kualitasnya saat dilatih dengan data yang dihasilkan oleh model AI sebelumnya.
Fenomena ini, yang disebut "model collapse," dapat mengikis kualitas model AI di masa depan, terutama ketika konten yang dihasilkan oleh AI semakin banyak dirilis ke internet, dan akibatnya, didaur ulang dan digunakan kembali dalam data pelatihan model.
Para peneliti dari Universitas Cambridge, Universitas Oxford, dan institusi lain menyelidiki fenomena ini dengan melakukan eksperimen yang menunjukkan bahwa ketika model AI dilatih secara berulang pada data yang dihasilkan oleh versi sebelumnya dari diri mereka sendiri, mereka mulai menghasilkan output yang semakin tidak masuk akal.
Efek ini diamati pada berbagai jenis model AI, termasuk model bahasa, variational autoencoders, dan Gaussian mixture models.
"Intinya adalah, kita harus sangat berhati-hati tentang apa yang masuk ke dalam data pelatihan kita," kata salah satu penulis studi, Zakhar Shumaylov dari Universitas Cambridge kepada Nature. "Jika tidak, hal-hal akan selalu, secara terbukti, menjadi salah."
Para peneliti mengidentifikasi tiga sumber utama kesalahan yang bertambah dari generasi ke generasi, menyebabkan model AI menyimpang dari kinerja aslinya:
- Kesalahan aproksimasi statistik: Muncul karena jumlah sampel yang terbatas digunakan dalam pelatihan.
- Kesalahan ekspresivitas fungsional: Terjadi karena keterbatasan kemampuan model untuk merepresentasikan fungsi kompleks.
- Kesalahan aproksimasi fungsional: Hasil dari ketidaksempurnaan dalam proses pembelajaran itu sendiri.
Untuk mendemonstrasikan model collapse, tim peneliti melakukan serangkaian eksperimen menggunakan berbagai arsitektur AI. Hasil menunjukkan bahwa model mulai menghasilkan teks yang semakin tidak mungkin dan tidak masuk akal dari generasi ke generasi.
Para peneliti juga mengamati bahwa model mulai kehilangan informasi tentang peristiwa yang kurang sering terjadi dalam data pelatihan mereka bahkan sebelum kejatuhan total. Hal ini menimbulkan kekhawatiran tentang keadilan dan representasi model AI, karena peristiwa langka sering kali terkait dengan kelompok yang terpinggirkan atau outlier penting dalam sistem kompleks. Tanpa mereka, model berisiko berkonsentrasi pada respons mereka di sepanjang spektrum ide dan keyakinan yang lebih sempit dan ortodoks, memperkuat bias.
Studi ini menyoroti pentingnya menjaga akses ke sumber data asli yang dihasilkan oleh manusia untuk keberlangsungan jangka panjang sistem AI. Solusi yang diusulkan termasuk memberi tanda air pada konten yang dihasilkan oleh AI untuk membedakannya dari data yang dibuat oleh manusia, menciptakan insentif bagi manusia untuk terus menghasilkan konten berkualitas tinggi, mengembangkan metode penyaringan dan kurasi yang lebih canggih untuk data pelatihan, serta menjelajahi cara untuk melestarikan dan memberikan prioritas akses ke informasi asli yang bukan dihasilkan oleh AI.