Riset Buktikan Jailbreak AI Chatbot Bisa Dilakukan oleh AI Chatbot Lainnya

Jailbreak Ai Chatbot

Gambaran distopia masa depan dimana perang adalah ajang untuk saling unjuk gigi kemampuan kecerdasan buatan sepertinya masih jauh dari kejadian. Pasalnya, jangankan berharap AI bisa menyusun strategi yang sebegitu dahsyatnya, kemampuan menyimpulkan informasi tanpa halu saja masih sulit rasanya terealisasi.

AI yang canggih berarti ia juga harus bisa tahan dari gempuran serangan siber. Setidaknya ia harus punya protokol yang menahannya dari gangguan pihak lain yang berusaha mengacaukan suasana. Tapi, dari segi ini juga tampaknya masih perlu banyak pr.

Peneliti Temukan Cara Jailbreak AI Chatbot dengan AI Chatbot Lainya

Chatbot AI

Riset dari NTU di Singapura berhasil untuk men-jailbreak chatbot AI populer seperti ChatGPT dan Google Bard untuk bisa mem-bypass protokol keamanan mereka. Melansir dari NTU langsung, riset ini dilakukan oleh Prof. Liu beserta mahasiswa PhD Deng Ge lei dan Liu Yi.

Mereka menemukan sebuah metode serangan yang bisa membuat para chatbot pintar ini melakukan bypass keamanan chatbot lainnya. Seperti membuat chatbot tersebut memunculkan hasil yang sebelumnya dilarang oleh programnya.

Mekanisme pertahanan ini bisa dibobol karena para peneliti ini mengajarkan AI tersebut untuk membobol Large Language Model milik AI lain. Cara ini mereka sebut sebagai MasterKey yang mana juga akan tetap bisa dilakukan meskipun chatbot tersebut sudah di-patch oleh developernya.

MasterKey Bisa Buat Chatbot Hasilkan Konten Berbahaya

Bisa di-jailbreak nampilkan hasil terlarang

Peneliti ini menyebutkan kalau kejadian ini bisa terjadi karena kemampuan AI tersebut dalam improvisasi dan beradaptasi. Hingga meskipun sebuah chatbot sudah dibatasi untuk tidak menghasilkan konten yang bersifat merugikan atau berbahaya, tetap saja dengan metode MasterKey ini bisa di-bypass.

Ada dua contoh yang peneliti ini berikan. Pertama adalah dengan menggunakan spasi di setiap huruf sehingga bisa melewati batasan kata-kata terlarang. Kedua, mereka membuat chatbot tersebut membalas sebagai seorang dengan persona tanpa batasan moral apapun.

Paper penelitian ini sudah diterima sebagai presentasi di Network and Distributed System Security Symposium di San Diego Februari 2024 ini.


Dapatkan informasi keren di Gamebrott terkait Tech atau artikel sejenis yang tidak kalah seru dari Andi. For further information and other inquiries, you can contact us via author@gamebrott.com.

Exit mobile version