- Penangkapan Lima Tersangka Kasus Ganja oleh Satresnarkoba di Lumajang
- Proyek Pembangunan Pasar Agropolitan di Gerbang Wisata Senduro Lumajang Hampir Rampung
- Pelantikan Resmi Indah-Yudha, Janji Mewujudkan Pemerintahan Lumajang Tanpa Korupsi
- Pengaktifan Kembali KUD di Lumajang untuk Memperkuat Perekonomian Desa
- Persiapan Mencetak Generasi Emas oleh Lembaga Parenting di Lumajang
- Aliansi BEM se-Lumajang Protes Program Efisiensi yang Dinilai Tidak Memenuhi Kebutuhan Dasar di DPRD
- Begal Mengintai di Klakah Lumajang Saat Hujan Turun
- Cek Kesehatan Gratis Dimulai di Lumajang, Simak Keuntungannya
- Dukungan Terhadap Penerapan P3K Paruh Waktu di Pemkab Lumajang dari Komisi A DPRD
- Wisuda Akbar Seribu Santri Madin Digelar di Pendopo Arya Wiraraja oleh FKDT Lumajang
Quiet-STaR Mengajari Model Bahasa untuk Berpikir Sebelum Berbicara
Quiet-STaR teaches language models to think before they speak https://dailyai.com/2024/03/quiet-star-teaches-language-models-to-think-before-they-speak/

Keterangan Gambar : Quiet-STaR Mengajari
Peneliti dari Universitas Stanford dan Notbad AI mengembangkan Quiet-STaR, sebuah teknik yang melatih model bahasa untuk berpikir secara internal sebelum menghasilkan output.
Saat manusia berbicara, biasanya kita memiliki dialog batin yang membentuk kata-kata yang akhirnya kita ucapkan. Semakin banyak kita berpikir sebelum berbicara, semakin baik kualitas kata-kata yang kita ucapkan.
Dalam makalah mereka, para peneliti menjelaskan bagaimana mereka melatih model bahasa (Mistral-7B) untuk belajar bagaimana meniru proses ini secara umum. Quiet-STaR adalah perkembangan dari teknik lain yang disebut STaR, atau Self-Taught Reasoner.
STaR adalah metode melatih model dengan beberapa contoh pertanyaan beserta penjelasan (rasional) untuk jawabannya. Model menggunakan contoh rangkaian pemikiran ini untuk mencoba menjawab pertanyaan sendiri, mencari tahu rasionalnya sendiri.
STaR mengevaluasi apakah rasional yang dihasilkannya menghasilkan jawaban yang benar dan menyempurnakan rasionalnya.
Meskipun STaR mengesankan, kemampuannya untuk berpikir terbatas pada konteks pertanyaan-jawaban selama pelatihan. Tujuan Quiet-STaR adalah memberikan kemampuan umum pada model bahasa untuk belajar bagaimana berpikir atau mengembangkan rasional, melintasi berbagai teks, bukan hanya dataset pertanyaan-jawaban.
Salah satu inovasi kunci dalam Quiet-STaR adalah bahwa ia menghasilkan rasional, atau pemikiran, secara paralel, mengikuti semua token dalam teks yang sedang diproses. Algoritma ini memproses rasional melalui "mixing head". Setiap rasional dievaluasi berdasarkan akurasi prediksi token berikutnya yang dihasilkannya dibandingkan dengan prediksi yang dibuat oleh model dasar.
Jika model dasar (tanpa Quiet-STaR) memberikan prediksi yang lebih baik, maka rasional tersebut bukanlah yang baik. Jika rasional menghasilkan prediksi token berikutnya yang lebih akurat, maka algoritma tahu bahwa itu adalah hal yang baik.
Algoritma kemudian menggunakan algoritma pembelajaran penguatan (REINFORCE) untuk belajar mana rasional yang membantu dan mana yang menghambat kinerja model. Hasilnya adalah model belajar kemampuan umum untuk berpikir sebelum memprediksi token berikutnya.
Hasil pengujian Quiet-STaR pada model Mistral-7B menunjukkan peningkatan pada benchmark matematika GSM8K dan penalaran CommonSenseQA. Mereka menemukan bahwa Quiet-STaR meningkatkan perplexity dan kemampuan penalaran langsung nol-shot pada kedua benchmark tersebut.
Meskipun penalaran matematika Mistral-7B masih belum begitu baik, Quiet-STaR memberikan peningkatan hampir 85% dibandingkan dengan model dasar, tanpa penyetelan fine-tuning dataset tertentu.
Hasil pengujian juga menunjukkan bahwa peningkatan kinerja berkaitan langsung dengan berapa banyak token yang dialokasikan untuk pemikiran internal model. Semakin banyak berpikir sebelum menjawab, semakin baik jawabannya.
Peningkatan ini datang dengan biaya overhead komputasi yang substansial. Dialog batin yang terlibat oleh model selama proses berpikir menghasilkan banyak token.
Peningkatan dalam perangkat keras pada akhirnya akan membuat overhead tambahan yang datang dengan teknik seperti ini menjadi kurang berdampak.
Para peneliti menyimpulkan bahwa pekerjaan masa depan dalam mengoptimalkan Quiet-STaR juga dapat membantu. Memprediksi secara dinamis apakah proses berpikir diperlukan, atau seberapa lama seharusnya, dapat mengurangi token pemikiran yang tidak perlu.
Hasil dari melatih model kecil seperti Mistral-7B dengan Quiet-STaR menjanjikan. Para peneliti percaya bahwa "teknik yang sama yang diterapkan pada model yang lebih baik kemungkinan besar akan menghasilkan hasil yang lebih baik secara proporsional."
Pertanyaan Etis
Membuat model bahasa berpikir lebih seperti manusia membawa beberapa isu menarik dan pertanyaan etis.
Para peneliti mencatat bahwa "tidak mungkin untuk mengetahui bahwa penalaran yang diungkapkan oleh model dalam bahasa secara akurat mewakili pemrosesan internal model." Rasional yang dihasilkan oleh model adalah representasi bahasa alami dari penalaran internalnya. Apakah mereka merupakan refleksi yang akurat?
Mereka juga mencatat bahwa "tidak ada perlindungan terhadap pola penalaran yang berbahaya atau bias jika model menemukannya berguna."
Kita mungkin puas dengan jawaban model AI, tetapi kita mungkin tidak menyukai, atau bahkan memahami, proses berpikir yang mengantarkannya.
Salah satu penulis utama makalah ini, Eric Zelikman, baru saja bergabung dengan xAI milik Elon Musk minggu ini. Dia mungkin menemukan bahwa Grok kurang peduli dengan pertanyaan etis ini dan lebih antusias dengan kemajuan AI.