Quiet-STaR Mengajari Model Bahasa untuk Berpikir Sebelum Berbicara
Quiet-STaR teaches language models to think before they speak https://dailyai.com/2024/03/quiet-star-teaches-language-models-to-think-before-they-speak/

By Sang Ruh 23 Mar 2024, 10:23:25 WIB | 👁 129 Programming
Quiet-STaR Mengajari Model Bahasa untuk Berpikir Sebelum Berbicara

Keterangan Gambar : Quiet-STaR Mengajari


Peneliti dari Universitas Stanford dan Notbad AI mengembangkan Quiet-STaR, sebuah teknik yang melatih model bahasa untuk berpikir secara internal sebelum menghasilkan output.

Saat manusia berbicara, biasanya kita memiliki dialog batin yang membentuk kata-kata yang akhirnya kita ucapkan. Semakin banyak kita berpikir sebelum berbicara, semakin baik kualitas kata-kata yang kita ucapkan.

Dalam makalah mereka, para peneliti menjelaskan bagaimana mereka melatih model bahasa (Mistral-7B) untuk belajar bagaimana meniru proses ini secara umum. Quiet-STaR adalah perkembangan dari teknik lain yang disebut STaR, atau Self-Taught Reasoner.

STaR adalah metode melatih model dengan beberapa contoh pertanyaan beserta penjelasan (rasional) untuk jawabannya. Model menggunakan contoh rangkaian pemikiran ini untuk mencoba menjawab pertanyaan sendiri, mencari tahu rasionalnya sendiri.

STaR mengevaluasi apakah rasional yang dihasilkannya menghasilkan jawaban yang benar dan menyempurnakan rasionalnya.

Meskipun STaR mengesankan, kemampuannya untuk berpikir terbatas pada konteks pertanyaan-jawaban selama pelatihan. Tujuan Quiet-STaR adalah memberikan kemampuan umum pada model bahasa untuk belajar bagaimana berpikir atau mengembangkan rasional, melintasi berbagai teks, bukan hanya dataset pertanyaan-jawaban.

Salah satu inovasi kunci dalam Quiet-STaR adalah bahwa ia menghasilkan rasional, atau pemikiran, secara paralel, mengikuti semua token dalam teks yang sedang diproses. Algoritma ini memproses rasional melalui "mixing head". Setiap rasional dievaluasi berdasarkan akurasi prediksi token berikutnya yang dihasilkannya dibandingkan dengan prediksi yang dibuat oleh model dasar.

Jika model dasar (tanpa Quiet-STaR) memberikan prediksi yang lebih baik, maka rasional tersebut bukanlah yang baik. Jika rasional menghasilkan prediksi token berikutnya yang lebih akurat, maka algoritma tahu bahwa itu adalah hal yang baik.

Algoritma kemudian menggunakan algoritma pembelajaran penguatan (REINFORCE) untuk belajar mana rasional yang membantu dan mana yang menghambat kinerja model. Hasilnya adalah model belajar kemampuan umum untuk berpikir sebelum memprediksi token berikutnya.

Hasil pengujian Quiet-STaR pada model Mistral-7B menunjukkan peningkatan pada benchmark matematika GSM8K dan penalaran CommonSenseQA. Mereka menemukan bahwa Quiet-STaR meningkatkan perplexity dan kemampuan penalaran langsung nol-shot pada kedua benchmark tersebut.

Meskipun penalaran matematika Mistral-7B masih belum begitu baik, Quiet-STaR memberikan peningkatan hampir 85% dibandingkan dengan model dasar, tanpa penyetelan fine-tuning dataset tertentu.

Hasil pengujian juga menunjukkan bahwa peningkatan kinerja berkaitan langsung dengan berapa banyak token yang dialokasikan untuk pemikiran internal model. Semakin banyak berpikir sebelum menjawab, semakin baik jawabannya.

Peningkatan ini datang dengan biaya overhead komputasi yang substansial. Dialog batin yang terlibat oleh model selama proses berpikir menghasilkan banyak token.

Peningkatan dalam perangkat keras pada akhirnya akan membuat overhead tambahan yang datang dengan teknik seperti ini menjadi kurang berdampak.

Para peneliti menyimpulkan bahwa pekerjaan masa depan dalam mengoptimalkan Quiet-STaR juga dapat membantu. Memprediksi secara dinamis apakah proses berpikir diperlukan, atau seberapa lama seharusnya, dapat mengurangi token pemikiran yang tidak perlu.

Hasil dari melatih model kecil seperti Mistral-7B dengan Quiet-STaR menjanjikan. Para peneliti percaya bahwa "teknik yang sama yang diterapkan pada model yang lebih baik kemungkinan besar akan menghasilkan hasil yang lebih baik secara proporsional."

Pertanyaan Etis

Membuat model bahasa berpikir lebih seperti manusia membawa beberapa isu menarik dan pertanyaan etis.

Para peneliti mencatat bahwa "tidak mungkin untuk mengetahui bahwa penalaran yang diungkapkan oleh model dalam bahasa secara akurat mewakili pemrosesan internal model." Rasional yang dihasilkan oleh model adalah representasi bahasa alami dari penalaran internalnya. Apakah mereka merupakan refleksi yang akurat?

Mereka juga mencatat bahwa "tidak ada perlindungan terhadap pola penalaran yang berbahaya atau bias jika model menemukannya berguna."

Kita mungkin puas dengan jawaban model AI, tetapi kita mungkin tidak menyukai, atau bahkan memahami, proses berpikir yang mengantarkannya.

Salah satu penulis utama makalah ini, Eric Zelikman, baru saja bergabung dengan xAI milik Elon Musk minggu ini. Dia mungkin menemukan bahwa Grok kurang peduli dengan pertanyaan etis ini dan lebih antusias dengan kemajuan AI.

View all comments

Write a comment