- Pencurian Terjadi di Kios Pasar Grati Lumajang, Gas Elpiji Hilang
- Warisan Lumajang Siap Mengguncang Dunia: Segoro Topeng
- Dukungan Terhadap Inisiatif Pelajar dalam Gerakan Anti Narkoba di Lumajang
- Perubahan Positif di Lumajang: Rumah Reyot Kini Ditinggalkan demi Harapan Baru
- Pengawalan Ketahanan Pangan oleh Polsek Pasrujambe Lumajang, Dukungan untuk Penanaman Jagung bagi Petani
- Kemeriahan Pawai Lampion Menyambut Tahun Baru Islam di Yosowilangun Kidul Lumajang
- Pembangunan Akhlak Ditekankan dalam Peringatan 1 Muharram 1447 H di Lumajang
- Penembakan Buronan Maling Sapi oleh Polres Lumajang Setelah Berbulan-Bulan Melarikan Diri
- Tiga Pemuda di Lumajang Rampas Motor Setelah Terlibat Pertikaian
- Pembahasan Perubahan APBD Lumajang Tahun 2025 untuk Sesuaikan Pembangunan dengan Visi Misi Pemimpin Daerah
Latihan Menolak LLM dengan Mudah Dilewati dengan Petunjuk Bentuk Kata Kerja Lampau
LLM refusal training easily bypassed with past tense prompts https://dailyai.com/2024/07/llm-refusal-training-easily-bypassed-with-past-tense-prompts/

Keterangan Gambar : Latihan Menolak LLM
Peneliti dari Institut Teknologi Federal Swiss Lausanne (EPFL) menemukan bahwa menulis permintaan berbahaya dalam bentuk lampau berhasil menghindari pelatihan penolakan dari LLMs paling canggih.
Model AI umumnya disesuaikan menggunakan teknik seperti fine-tuning terawasi (SFT) atau umpan balik manusia reinforcement learning (RLHF) untuk memastikan model tidak merespons permintaan berbahaya atau tidak diinginkan.
Pelatihan penolakan ini berlaku ketika Anda meminta saran kepada ChatGPT tentang cara membuat bom atau obat terlarang. Kami telah membahas berbagai teknik jailbreak menarik yang berhasil menghindari penghalang ini, tetapi metode yang diuji oleh para peneliti EPFL adalah yang paling sederhana.
Para peneliti mengambil dataset 100 perilaku berbahaya dan menggunakan GPT-3.5 untuk menulis ulang permintaan dalam bentuk lampau.
Berikut contoh metode yang dijelaskan dalam makalah mereka.
Menggunakan LLM untuk menulis ulang permintaan berbahaya dalam bentuk lampau. Sumber: arXiv
Mereka kemudian mengevaluasi tanggapan terhadap permintaan yang diubah ulang ini dari 8 LLM: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o, dan R2D2.
Mereka menggunakan beberapa LLM untuk menilai output dan mengklasifikasikannya sebagai upaya jailbreak yang gagal atau berhasil.
Hanya dengan mengubah bentuk lampau dari permintaan, ASR (attack success rate) meningkat secara signifikan. GPT-4o dan GPT-4o mini terutama rentan terhadap teknik ini.
ASR dari "serangan sederhana pada GPT-4o meningkat dari 1% menggunakan permintaan langsung menjadi 88% menggunakan 20 percobaan reformulasi bentuk lampau pada permintaan berbahaya."
Berikut contoh betapa patuhnya GPT-4o ketika Anda hanya menulis ulang permintaan dalam bentuk lampau. Saya menggunakan ChatGPT untuk ini dan kerentanannya belum diperbaiki.
ChatGPT menggunakan GPT-4o menolak permintaan bentuk sekarang tetapi patuh ketika ditulis ulang dalam bentuk lampau. Sumber: ChatGPT
Pelatihan penolakan menggunakan RLHF dan SFT melatih model untuk berhasil menggeneralisasi menolak permintaan berbahaya bahkan jika belum pernah melihat permintaan tertentu sebelumnya.
Ketika permintaan ditulis dalam bentuk lampau, LLMs tampak kehilangan kemampuan untuk menggeneralisasi. LLM lainnya tidak jauh lebih baik dari GPT-4o meskipun Llama-3 8B tampak paling tangguh.
Tingkat keberhasilan serangan menggunakan permintaan berbahaya bentuk sekarang dan lampau. Sumber: arXiv
Menulis ulang permintaan dalam bentuk masa depan melihat peningkatan ASR tetapi kurang efektif daripada permintaan bentuk lampau.
Para peneliti menyimpulkan bahwa ini mungkin karena "dataset fine-tuning mungkin mengandung proporsi lebih tinggi permintaan berbahaya yang diungkapkan dalam bentuk masa depan atau sebagai peristiwa hipotetis."
Mereka juga menyarankan bahwa "Pemikiran internal model mungkin menginterpretasikan permintaan berorientasi masa depan sebagai lebih berbahaya, sedangkan pernyataan bentuk lampau, seperti peristiwa sejarah, mungkin dianggap lebih tidak berbahaya."
Dapatkah ini diperbaiki?
Eksperimen lebih lanjut menunjukkan bahwa menambahkan permintaan bentuk lampau ke dataset fine-tuning efektif mengurangi kerentanan terhadap teknik jailbreak ini.
Meskipun efektif, pendekatan ini memerlukan antisipasi terhadap jenis permintaan berbahaya yang mungkin dimasukkan pengguna.
Para peneliti menyarankan bahwa mengevaluasi output model sebelum disajikan kepada pengguna adalah solusi yang lebih mudah.
Mesederhana teknik jailbreak ini, tampaknya perusahaan AI terkemuka belum menemukan cara untuk memperbaikinya.