Mencegah Penggunaan Jahat LLM dengan Menggunakan Metode Penghapusan Informasi Tak Teringat
WMDP measures and reduces LLM malicious use with unlearning https://dailyai.com/2024/03/wmdp-measures-and-reduces-llm-malicious-use-with-unlearning/

By Sang Ruh 13 Mar 2024, 12:30:12 WIB | 👁 151 Programming
Mencegah Penggunaan Jahat LLM dengan Menggunakan Metode Penghapusan Informasi Tak Teringat

Keterangan Gambar : Mencegah Penggunaan


Peneliti telah merilis sebuah benchmark untuk mengukur apakah sebuah LLM (Large Language Model) mengandung pengetahuan berbahaya dan teknik baru untuk melupakan data berbahaya.

Terdapat banyak perdebatan mengenai apakah model AI dapat membantu pelaku jahat membangun bom, merencanakan serangan keamanan cyber, atau membuat senjata biologi.

Tim peneliti dari Scale AI, Center for AI Safety, dan para ahli dari institusi pendidikan terkemuka, merilis sebuah benchmark yang memberikan kita ukuran yang lebih baik tentang seberapa berbahayanya suatu LLM tertentu.

Benchmark Weapons of Mass Destruction Proxy (WMDP) adalah kumpulan data 4.157 pertanyaan pilihan ganda seputar pengetahuan berbahaya dalam biosecurity, cybersecurity, dan chemical security.

Semakin tinggi skor LLM pada benchmark, semakin berbahaya potensi dalam memungkinkan seseorang dengan niat kriminal. Sebuah LLM dengan skor WMDP yang lebih rendah lebih tidak mungkin membantu Anda membangun bom atau menciptakan virus baru.

Cara tradisional untuk membuat LLM lebih sejalan adalah menolak permintaan yang meminta data yang dapat memungkinkan tindakan jahat. Melakukan jailbreaking atau fine-tuning pada LLM yang sejalan dapat menghilangkan penghalang ini dan mengekspos pengetahuan berbahaya dalam dataset model.

Jika Anda bisa membuat model melupakan, atau melupakan informasi yang melanggar, maka tidak ada peluang bagi model tersebut secara tidak sengaja memberikannya sebagai tanggapan terhadap teknik jailbreaking yang cerdik.

Dalam paper penelitian mereka, para peneliti menjelaskan bagaimana mereka mengembangkan algoritma bernama Contrastive Unlearn Tuning (CUT), sebuah metode fine-tuning untuk melupakan pengetahuan berbahaya sambil mempertahankan informasi yang baik.

Metode fine-tuning CUT melakukan machine unlearning dengan mengoptimalkan "forget term" sehingga model menjadi kurang ahli dalam subjek berbahaya. Ini juga mengoptimalkan "retain term" sehingga memberikan tanggapan yang membantu untuk permintaan yang baik.

Sifat dual-use dari sebagian besar informasi dalam dataset pelatihan LLM membuat sulit untuk melupakan hanya hal-hal buruk sambil mempertahankan info yang berguna. Dengan menggunakan WMDP, para peneliti dapat membangun dataset "forget" dan "retain" untuk mengarahkan teknik unlearning CUT mereka.

Para peneliti menggunakan WMDP untuk mengukur seberapa mungkin model ZEPHYR-7B-BETA memberikan informasi berbahaya sebelum dan setelah unlearning menggunakan CUT. Uji coba mereka difokuskan pada bio dan cybersecurity.

Mereka kemudian menguji model untuk melihat apakah kinerja umumnya telah menderita akibat proses unlearning.

Hasilnya menunjukkan bahwa proses unlearning secara signifikan mengurangi akurasi tanggapan terhadap permintaan berbahaya dengan hanya sedikit penurunan kinerja model pada benchmark MMLU.

Sayangnya, CUT mengurangi akurasi tanggapan untuk bidang terkait seperti virologi pengantar dan keamanan komputer. Memberikan tanggapan yang berguna untuk "Bagaimana menghentikan serangan cyber?" tetapi tidak untuk "Bagaimana melakukan serangan cyber?" memerlukan lebih banyak ketepatan dalam proses unlearning.

Para peneliti juga menemukan bahwa mereka tidak dapat dengan tepat menghilangkan pengetahuan kimia berbahaya karena terlalu erat terkait dengan pengetahuan kimia umum.

Dengan menggunakan CUT, penyedia model tertutup seperti GPT-4 dapat melupakan informasi berbahaya sehingga bahkan jika mereka mengalami fine-tuning atau jailbreaking yang jahat, mereka tidak mengingat informasi berbahaya untuk disampaikan.

Anda dapat melakukan hal yang sama dengan model open-source, namun, akses publik ke bobot mereka berarti bahwa mereka dapat mempelajari kembali data berbahaya jika dilatih dengan itu.

Metode membuat model AI melupakan data berbahaya ini tidak sempurna, terutama untuk model open-source, namun ini adalah tambahan yang kuat untuk metode sejalan saat ini.

View all comments

Write a comment