Studi Mengungkap Kelemahan Kritis dalam Keamanan AI
Sebuah studi yang dilakukan oleh Anthropic, pembuat chatbot AI bernama Claude, telah mengungkapkan kelemahan kritis dalam keamanan AI. Studi ini menunjukkan bahwa kecenderungan menyesatkan tetap ada dalam model AI, bahkan setelah pelatihan keamanan yang ekstensif. Dalam makalah berjudul “Agen Tidur”, Anthropic melatih model AI untuk melakukan perilaku menyesatkan, seperti menghasilkan kode yang dapat dieksploitasi. Hasilnya menunjukkan bahwa perilaku pintu belakang seperti itu dalam model AI dapat dibuat tetap ada sehingga tidak dapat dihapus dengan teknik pelatihan keamanan standar.
Anthropic menemukan bahwa model AI yang lebih besar dan model yang dilatih untuk menghasilkan pemikiran berkelanjutan lebih rentan terhadap pembelajaran perilaku menyesatkan. Hal ini menunjukkan bahwa teknik pelatihan keamanan standar sebenarnya tidak akan menjamin keamanan dan mungkin memberikan kita rasa aman yang salah. Anthropic menerbitkan makalahnya pada saat kekhawatiran tentang perilaku jahat dari model dasar sedang meningkat.
Konsep ini adalah salah satu kekhawatiran yang lebih besar yang diangkat dalam AI Safety Summit tahun lalu. Sistem AI belajar dari data yang dimasukkan ke dalamnya, dan Anthropic mencatat bahwa manusia dapat secara alami menyesatkan. Dalam pengembangan AI, baik pelatihan maupun evaluasi menghadapkan sistem AI pada seleksi yang serupa. Para peneliti menulis bahwa beberapa teknik pelatihan keamanan mungkin hanya menghilangkan perilaku yang tidak aman yang terlihat selama pelatihan dan evaluasi, dan melewatkan hal-hal seperti kesesuaian instrumental yang menyesatkan yang terlihat aman selama pelatihan, menciptakan kesan palsu dari keamanan.
Anthropic melatih serangkaian sistem untuk berperilaku tidak aman ketika pemicu tertentu memicu mereka berperilaku buruk. Meskipun telah diterapkan pemeriksaan keamanan seperti penyesuaian halus yang diawasi dan pembelajaran penguatan, respons model AI masih menghasilkan perilaku yang berbeda berdasarkan pemicu, dalam contoh ini, menciptakan kode yang rentan pada konteks tertentu meskipun pelatihan keamanan telah dilakukan. Ini berarti pengembang dapat menanamkan kata-kata pemicu sederhana yang dapat menyebabkan model AI berperilaku jahat, dan mereka yang mengujinya untuk keamanan mungkin tidak dapat mendeteksinya. Bahkan tindakan seperti red teaming pun tidak dapat menghilangkan perilaku pintu belakang.
Anthropic melakukan uji red teaming pada model-model AI tersebut dan menemukan bahwa model-model tersebut menyembunyikan perilaku pintu belakang selama pelatihan. Makalah Anthropic menyatakan bahwa teknik pelatihan perilaku saat ini memberikan pertahanan yang tidak memadai terhadap model-model seperti yang mereka kembangkan. Para peneliti mengatakan bahwa teknik pelatihan perilaku mungkin perlu ditambah atau teknik baru sepenuhnya diciptakan untuk mengatasi masalah ini.