Daftar Isi
Teknik Machine Learning Baru Meningkatkan Keamanan Chatbot AI
Peneliti dari Improbable AI Lab di MIT dan MIT-IBM Watson AI Lab telah mengembangkan teknik machine learning untuk meningkatkan proses red-teaming pada model bahasa besar yang digunakan dalam chatbot AI. Red-teaming melibatkan pengujian model dengan menghasilkan rangsangan yang bertujuan untuk memicu respons yang tidak aman atau beracun. Dengan melatih model red-team untuk menjadi penasaran dan fokus pada rangsangan baru yang menghasilkan respons beracun, para peneliti mencapai hasil yang lebih baik daripada pengujian manusia dan pendekatan machine learning lainnya.
Metode branda secara signifikan meningkatkan cakupan input yang diuji dan bahkan dapat mengungkapkan respons beracun dari chatbot dengan perlindungan bawaan. Pendekatan ini menawarkan cara yang lebih cepat dan efektif untuk memastikan keamanan model bahasa besar, yang sangat penting dalam lingkungan yang berubah dengan cepat. Temuan penelitian ini akan disajikan dalam Konferensi Internasional tentang Representasi Pembelajaran.
Red-teaming Otomatis untuk Keamanan Model Bahasa Besar
Red-teaming otomatis telah menjadi hal yang diperlukan karena keterbatasan red-teaming manusia, yang seringkali tidak efektif dalam menghasilkan berbagai rangsangan untuk melindungi model secara menyeluruh. Para peneliti MIT menggunakan teknik pembelajaran penguatan yang disebut eksplorasi yang didorong oleh rasa ingin tahu untuk melatih model red-team. Teknik ini memberikan insentif kepada model untuk penasaran tentang konsekuensi dari setiap rangsangan yang dihasilkannya, mendorongnya untuk menjelajahi kata-kata, pola kalimat, dan makna yang berbeda.
Para peneliti juga memperkenalkan reward untuk kebaruan dan entropi untuk mempromosikan keberagaman dan mencegah model menghasilkan teks yang tidak masuk akal. Dengan modifikasi ini, model red-team branda berhasil mengungguli teknik otomatis lainnya dalam hal toksisitas dan keberagaman respons.
Masa Depan Red-teaming dan Keamanan AI
Para peneliti menguji model red-team branda pada chatbot yang telah disesuaikan untuk menghindari balasan beracun. Mengejutkannya, pendekatan yang didorong oleh rasa ingin tahu branda dengan cepat menghasilkan 196 rangsangan yang menghasilkan respons beracun dari chatbot “aman” ini. Hal ini menyoroti pentingnya verifikasi yang teliti sebelum merilis model AI, terutama mengingat jumlah model yang semakin banyak dikembangkan dan diperbarui.
Di masa depan, para peneliti bertujuan untuk memperluas kemampuan model red-team untuk menghasilkan rangsangan pada berbagai topik. Branda juga berencana untuk mengeksplorasi penggunaan model bahasa besar sebagai klasifikasi toksisitas, yang memungkinkan pengguna untuk melatih klasifikasi menggunakan dokumen khusus seperti kebijakan perusahaan. Hal ini akan memungkinkan red-teaming untuk menguji chatbot terhadap pelanggaran kebijakan.
Para peneliti menyarankan agar red-teaming yang didorong oleh rasa ingin tahu harus dipertimbangkan saat merilis model AI baru untuk memastikan perilaku yang diharapkan. Penelitian ini didukung oleh berbagai organisasi dan hibah, yang menekankan pentingnya upaya kolaboratif dalam meningkatkan langkah-langkah keamanan AI.