Peneliti ETH Zurich Temukan Cara Jailbreak AI, Apakah Keamanan AI Kita Terancam?

Updated

November 28, 2023

Gambar Peneliti ETH Zurich Temukan Cara Jailbreak AI, Apakah Keamanan AI Kita Terancam?

Peneliti dari ETH Zurich, Swiss, telah mengembangkan metode yang memungkinkan model kecerdasan buatan yang bergantung pada umpan balik manusia untuk dijailbreak. Istilah “jailbreak” dalam konteks ini merujuk pada pengabaian “guardrails” AI, atau instruksi yang mencegah model dari menghasilkan output yang berbahaya atau tidak diinginkan.

Apa Itu Jailbreak dalam Konteks AI?

Jailbreak biasanya digunakan untuk menggambarkan penggunaan eksploitasi atau peretasan untuk mengabaikan pembatasan konsumen pada perangkat seperti smartphone dan gadget streaming.

Namun, dalam dunia AI generatif dan model bahasa besar (LLMs), jailbreak berarti melewati “guardrails” – instruksi yang tidak terlihat dan telah diprogram sebelumnya yang mencegah model dari menghasilkan output yang berbahaya, tidak diinginkan, atau tidak membantu – untuk mengakses respons model tanpa hambatan.

Bagaimana Cara Kerja Jailbreak AI?

Peneliti di ETH Zurich berhasil mengeksploitasi teknik yang disebut “reinforcement learning from human feedback” (RLHF) untuk melewati guardrails AI dan membuatnya menghasilkan output yang berpotensi berbahaya tanpa dorongan dari pihak ketiga. Mereka melakukannya dengan “meracuni” data set RLHF.

Peneliti menemukan bahwa dengan memasukkan serangkaian serangan ke dalam umpan balik RLHF, meski dalam skala kecil, dapat menciptakan pintu belakang yang memaksa model untuk hanya menghasilkan respons yang seharusnya diblokir oleh guardrails mereka.

Apakah Jailbreak AI Dapat Diterapkan pada Semua Model AI?

Peneliti menggambarkan celah ini sebagai universal, yang berarti secara teoritis bisa bekerja dengan model AI apa pun yang dilatih melalui RLHF. Namun, mereka juga menulis bahwa sangat sulit untuk melakukannya.

Pertama, meskipun tidak memerlukan akses ke model itu sendiri, tetapi memerlukan partisipasi dalam proses umpan balik manusia. Ini berarti bahwa, secara potensial, satu-satunya vektor serangan yang layak adalah dengan mengubah atau membuat data set RLHF.

Paragraf Penutup

Meski penelitian ini menunjukkan potensi ancaman terhadap keamanan AI, masih belum jelas seberapa layak serangan ini diterapkan pada model skala besar. Namun, peneliti menyarankan bahwa studi lebih lanjut diperlukan untuk memahami bagaimana teknik ini dapat ditingkatkan dan bagaimana pengembang dapat melindungi diri dari serangan semacam ini.

Ikuti kami di Google News untuk mendapatkan berita-berita terbaru seputar crypto. Nyalakan notifikasi agar tidak ketinggalan beritanya.

*Disclaimer:
Konten ini bertujuan memperkaya informasi pembaca. Selalu lakukan riset mandiri dan gunakan uang dingin sebelum berinvestasi. Segala aktivitas jual beli dan investasi aset crypto menjadi tanggung jawab pembaca.