Latihan Menolak LLM dengan Mudah Dilewati dengan Petunjuk Bentuk Kata Kerja Lampau
LLM refusal training easily bypassed with past tense prompts https://dailyai.com/2024/07/llm-refusal-training-easily-bypassed-with-past-tense-prompts/

By Sang Ruh 22 Jul 2024, 17:07:47 WIB | 👁 44 Programming
Latihan Menolak LLM dengan Mudah Dilewati dengan Petunjuk Bentuk Kata Kerja Lampau

Keterangan Gambar : Latihan Menolak LLM


Peneliti dari Institut Teknologi Federal Swiss Lausanne (EPFL) menemukan bahwa menulis permintaan berbahaya dalam bentuk lampau berhasil menghindari pelatihan penolakan dari LLMs paling canggih.

Model AI umumnya disesuaikan menggunakan teknik seperti fine-tuning terawasi (SFT) atau umpan balik manusia reinforcement learning (RLHF) untuk memastikan model tidak merespons permintaan berbahaya atau tidak diinginkan.

Pelatihan penolakan ini berlaku ketika Anda meminta saran kepada ChatGPT tentang cara membuat bom atau obat terlarang. Kami telah membahas berbagai teknik jailbreak menarik yang berhasil menghindari penghalang ini, tetapi metode yang diuji oleh para peneliti EPFL adalah yang paling sederhana.

Para peneliti mengambil dataset 100 perilaku berbahaya dan menggunakan GPT-3.5 untuk menulis ulang permintaan dalam bentuk lampau.

Berikut contoh metode yang dijelaskan dalam makalah mereka.

Menggunakan LLM untuk menulis ulang permintaan berbahaya dalam bentuk lampau. Sumber: arXiv

Mereka kemudian mengevaluasi tanggapan terhadap permintaan yang diubah ulang ini dari 8 LLM: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o, dan R2D2.

Mereka menggunakan beberapa LLM untuk menilai output dan mengklasifikasikannya sebagai upaya jailbreak yang gagal atau berhasil.

Hanya dengan mengubah bentuk lampau dari permintaan, ASR (attack success rate) meningkat secara signifikan. GPT-4o dan GPT-4o mini terutama rentan terhadap teknik ini.

ASR dari "serangan sederhana pada GPT-4o meningkat dari 1% menggunakan permintaan langsung menjadi 88% menggunakan 20 percobaan reformulasi bentuk lampau pada permintaan berbahaya."

Berikut contoh betapa patuhnya GPT-4o ketika Anda hanya menulis ulang permintaan dalam bentuk lampau. Saya menggunakan ChatGPT untuk ini dan kerentanannya belum diperbaiki.

ChatGPT menggunakan GPT-4o menolak permintaan bentuk sekarang tetapi patuh ketika ditulis ulang dalam bentuk lampau. Sumber: ChatGPT

Pelatihan penolakan menggunakan RLHF dan SFT melatih model untuk berhasil menggeneralisasi menolak permintaan berbahaya bahkan jika belum pernah melihat permintaan tertentu sebelumnya.

Ketika permintaan ditulis dalam bentuk lampau, LLMs tampak kehilangan kemampuan untuk menggeneralisasi. LLM lainnya tidak jauh lebih baik dari GPT-4o meskipun Llama-3 8B tampak paling tangguh.

Tingkat keberhasilan serangan menggunakan permintaan berbahaya bentuk sekarang dan lampau. Sumber: arXiv

Menulis ulang permintaan dalam bentuk masa depan melihat peningkatan ASR tetapi kurang efektif daripada permintaan bentuk lampau.

Para peneliti menyimpulkan bahwa ini mungkin karena "dataset fine-tuning mungkin mengandung proporsi lebih tinggi permintaan berbahaya yang diungkapkan dalam bentuk masa depan atau sebagai peristiwa hipotetis."

Mereka juga menyarankan bahwa "Pemikiran internal model mungkin menginterpretasikan permintaan berorientasi masa depan sebagai lebih berbahaya, sedangkan pernyataan bentuk lampau, seperti peristiwa sejarah, mungkin dianggap lebih tidak berbahaya."

Dapatkah ini diperbaiki?

Eksperimen lebih lanjut menunjukkan bahwa menambahkan permintaan bentuk lampau ke dataset fine-tuning efektif mengurangi kerentanan terhadap teknik jailbreak ini.

Meskipun efektif, pendekatan ini memerlukan antisipasi terhadap jenis permintaan berbahaya yang mungkin dimasukkan pengguna.

Para peneliti menyarankan bahwa mengevaluasi output model sebelum disajikan kepada pengguna adalah solusi yang lebih mudah.

Mesederhana teknik jailbreak ini, tampaknya perusahaan AI terkemuka belum menemukan cara untuk memperbaikinya.

View all comments

Write a comment