- Penghargaan IPSI Diberikan pada Hari Kesaktian Pancasila kepada Sejumlah Anggota Kepolisian Lumajang
- Penanaman Disiplin Lalu Lintas Dilakukan Sejak Usia Dini di Lumajang
- Penangkapan Pelaku Pencurian Sapi Berhasil Dilakukan Dalam Waktu Kurang Dari 24 Jam Di Lumajang
- Peninjauan Dapur Program Makan Bergizi Gratis Dilakukan di Lumajang oleh Forkopimda
- Pengukuhan Dewan Pengawas RSUD dr Haryoto dengan Penekanan pada Inovasi dan Profesionalisme
- Musibah Dewangga Dijadikan Alarm untuk Edukasi Anak di Lumajang
- Pemantauan Pelaksanaan Program Makan Bergizi Gratis Dilakukan Oleh Pimpinan Daerah dan Forkopimda Lumajang
- Pendampingan Korban Minum Cairan Berbahaya di Lumajang oleh Pemerintah Daerah
- Kejadian Pencurian Motor Terjadi di Lumajang Saat Pagi Hari
- Penyelewengan Setoran Senilai Rp180 Juta Terjadi di Lumajang Melibatkan Seorang Sales Semen
Latihan Menolak LLM dengan Mudah Dilewati dengan Petunjuk Bentuk Kata Kerja Lampau
LLM refusal training easily bypassed with past tense prompts https://dailyai.com/2024/07/llm-refusal-training-easily-bypassed-with-past-tense-prompts/

Keterangan Gambar : Latihan Menolak LLM
Peneliti dari Institut Teknologi Federal Swiss Lausanne (EPFL) menemukan bahwa menulis permintaan berbahaya dalam bentuk lampau berhasil menghindari pelatihan penolakan dari LLMs paling canggih.
Model AI umumnya disesuaikan menggunakan teknik seperti fine-tuning terawasi (SFT) atau umpan balik manusia reinforcement learning (RLHF) untuk memastikan model tidak merespons permintaan berbahaya atau tidak diinginkan.
Pelatihan penolakan ini berlaku ketika Anda meminta saran kepada ChatGPT tentang cara membuat bom atau obat terlarang. Kami telah membahas berbagai teknik jailbreak menarik yang berhasil menghindari penghalang ini, tetapi metode yang diuji oleh para peneliti EPFL adalah yang paling sederhana.
Para peneliti mengambil dataset 100 perilaku berbahaya dan menggunakan GPT-3.5 untuk menulis ulang permintaan dalam bentuk lampau.
Berikut contoh metode yang dijelaskan dalam makalah mereka.
Menggunakan LLM untuk menulis ulang permintaan berbahaya dalam bentuk lampau. Sumber: arXiv
Mereka kemudian mengevaluasi tanggapan terhadap permintaan yang diubah ulang ini dari 8 LLM: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o, dan R2D2.
Mereka menggunakan beberapa LLM untuk menilai output dan mengklasifikasikannya sebagai upaya jailbreak yang gagal atau berhasil.
Hanya dengan mengubah bentuk lampau dari permintaan, ASR (attack success rate) meningkat secara signifikan. GPT-4o dan GPT-4o mini terutama rentan terhadap teknik ini.
ASR dari "serangan sederhana pada GPT-4o meningkat dari 1% menggunakan permintaan langsung menjadi 88% menggunakan 20 percobaan reformulasi bentuk lampau pada permintaan berbahaya."
Berikut contoh betapa patuhnya GPT-4o ketika Anda hanya menulis ulang permintaan dalam bentuk lampau. Saya menggunakan ChatGPT untuk ini dan kerentanannya belum diperbaiki.
ChatGPT menggunakan GPT-4o menolak permintaan bentuk sekarang tetapi patuh ketika ditulis ulang dalam bentuk lampau. Sumber: ChatGPT
Pelatihan penolakan menggunakan RLHF dan SFT melatih model untuk berhasil menggeneralisasi menolak permintaan berbahaya bahkan jika belum pernah melihat permintaan tertentu sebelumnya.
Ketika permintaan ditulis dalam bentuk lampau, LLMs tampak kehilangan kemampuan untuk menggeneralisasi. LLM lainnya tidak jauh lebih baik dari GPT-4o meskipun Llama-3 8B tampak paling tangguh.
Tingkat keberhasilan serangan menggunakan permintaan berbahaya bentuk sekarang dan lampau. Sumber: arXiv
Menulis ulang permintaan dalam bentuk masa depan melihat peningkatan ASR tetapi kurang efektif daripada permintaan bentuk lampau.
Para peneliti menyimpulkan bahwa ini mungkin karena "dataset fine-tuning mungkin mengandung proporsi lebih tinggi permintaan berbahaya yang diungkapkan dalam bentuk masa depan atau sebagai peristiwa hipotetis."
Mereka juga menyarankan bahwa "Pemikiran internal model mungkin menginterpretasikan permintaan berorientasi masa depan sebagai lebih berbahaya, sedangkan pernyataan bentuk lampau, seperti peristiwa sejarah, mungkin dianggap lebih tidak berbahaya."
Dapatkah ini diperbaiki?
Eksperimen lebih lanjut menunjukkan bahwa menambahkan permintaan bentuk lampau ke dataset fine-tuning efektif mengurangi kerentanan terhadap teknik jailbreak ini.
Meskipun efektif, pendekatan ini memerlukan antisipasi terhadap jenis permintaan berbahaya yang mungkin dimasukkan pengguna.
Para peneliti menyarankan bahwa mengevaluasi output model sebelum disajikan kepada pengguna adalah solusi yang lebih mudah.
Mesederhana teknik jailbreak ini, tampaknya perusahaan AI terkemuka belum menemukan cara untuk memperbaikinya.