Agenda Riset Keamanan AI Inggris & Tantangan Global

Daftar Isi

Agenda Riset AI Security Institute dan Tantangan Keamanan Frontier AI
Mandat, Ekosistem Riset, dan Kemitraan Strategis
Prioritas Riset, Domain Risiko, dan Pendekatan Ilmiah
Struktur Riset: Domain Risiko dan Riset Umum
Keamanan Siber, Penyalahgunaan Kriminal, dan Sistem Otonom
Risiko Sistem Otonom dan Manipulasi Berbasis AI
Pengukuran Kapabilitas, Measurement Science, dan Capability Elicitation
Solusi, Safeguards, dan Protokol Kontrol
Alignment, Kejujuran Sistem, dan Peran Global AISI

Agenda Riset AI Security Institute dan Tantangan Keamanan Frontier AI

AI Security Institute (AISI) menetapkan agenda riset komprehensif untuk menghadapi risiko dari artificial intelligence tingkat lanjut. Lembaga ini memusatkan perhatian pada pengembangan solusi teknis, evaluasi risiko, dan strategi mitigasi yang diperlukan agar pemanfaatan artificial intelligence berlangsung aman dan bertanggung jawab. Potensi AI bagi Inggris Raya sangat besar, mulai dari mendorong pertumbuhan ekonomi hingga meningkatkan layanan publik dan kualitas hidup. Namun, peluang tersebut datang bersama risiko keamanan serius yang menuntut pengelolaan sistematis, berbasis bukti ilmiah, dan berorientasi jangka panjang.

AISI dibentuk untuk menyediakan landasan ilmiah yang kuat bagi pemerintah dalam memahami risiko frontier AI. Lembaga ini merupakan tim pemerintah terbesar di dunia yang secara khusus didedikasikan untuk riset keselamatan dan keamanan artificial intelligence. Melalui program risetnya, AI Security Institute berupaya memetakan kapabilitas sistem AI tingkat lanjut, dampaknya terhadap dunia nyata, serta langkah teknis yang diperlukan untuk mengurangi risiko. Menurut laporan pemerintah Inggris, sektor AI diperkirakan dapat menyumbang lebih dari 200 miliar poundsterling terhadap perekonomian pada 2040, menjadikan kebutuhan akan keamanan AI semakin mendesak (Department for Science, Innovation and Technology, 2023).

Sejak berdiri pada November 2023, AISI menetapkan tiga tujuan utama. Pertama, menjadi otoritas teknis terkemuka dalam keselamatan dan keamanan frontier AI. Kedua, mengoordinasikan ekosistem riset yang lebih luas di bidang keamanan AI, mencakup laboratorium industri, universitas, dan lembaga kebijakan. Ketiga, membangun kemitraan erat dengan pemerintah Inggris, perusahaan pengembang frontier AI, dan mitra internasional untuk memajukan ilmu keamanan AI. Pendekatan ini sejalan dengan komitmen yang disepakati dalam AI Safety Summit 2023 di Bletchley Park, yang menekankan urgensi kolaborasi global dalam mengelola risiko frontier AI.

Mandat, Ekosistem Riset, dan Kemitraan Strategis

Program riset AISI menjadi fondasi seluruh aktivitas lembaga. Melalui tim teknis, AI Security Institute membangun pemahaman berbasis bukti mengenai risiko paling serius yang muncul dari sistem AI tingkat lanjut. Lembaga ini mengembangkan infrastruktur, perangkat, dan praktik terbaik untuk menilai risiko secara sistematis dan terukur. Di saat yang sama, AISI merancang solusi praktis agar Inggris dapat memetik manfaat AI tanpa mengabaikan aspek keamanan, termasuk pengembangan standar evaluasi dan pedoman teknis bagi pengembang model frontier.

Untuk menjalankan mandat tersebut, AISI brandrut pakar dari laboratorium industri dan akademik terkemuka. Keahlian branda mencakup machine learning, rekayasa, keselamatan dan tata kelola AI, serta domain risiko khusus seperti keamanan siber, biologi, dan ilmu sosial. AI Security Institute menjalin kemitraan dengan laboratorium AI besar, organisasi riset, universitas, dan unit pemerintah kunci, termasuk Laboratory for AI Security Research, National Cyber Security Centre, Defence Science and Technology Laboratory, serta komunitas keamanan nasional yang lebih luas.

Kolaborasi ini memberikan wawasan mendalam tentang ancaman yang muncul dan membantu membangun gambaran menyeluruh mengenai kapabilitas model frontier. AISI menelaah bagaimana kapabilitas tersebut dapat bertranslasi menjadi risiko nyata yang memengaruhi keamanan nasional, stabilitas sosial, dan integritas infrastruktur kritis. Program riset dirancang adaptif, terus berkembang seiring perubahan kapabilitas AI, munculnya risiko baru, dan pergeseran prioritas pemerintah maupun komunitas internasional, sehingga agenda riset tetap relevan terhadap dinamika teknologi.

Prioritas Riset, Domain Risiko, dan Pendekatan Ilmiah

Dokumen agenda riset AISI memaparkan area fokus utama, prioritas perekrutan, dan arah riset masa depan yang ingin dikembangkan melalui kolaborasi. Dengan mempublikasikan prioritas riset, AI Security Institute menyoroti domain risiko yang dianggap paling mendesak dan solusi yang tengah dikembangkan. Lembaga ini berharap dapat mendorong penelitian lanjutan, menarik dukungan dan pendanaan, serta mengundang kolaborasi lintas sektor. Karena sifat pekerjaan yang sensitif, tidak semua detail metode dan tujuan dapat diungkapkan secara publik demi menjaga keamanan nasional dan mencegah penyalahgunaan.

AISI berkomitmen melakukan riset ilmiah yang ketat terhadap risiko paling serius dari artificial intelligence. Fokusnya mencakup ancaman siber, risiko kimia-biologis, penyalahgunaan kriminal, dan bahaya dari sistem otonom yang sangat mampu. Lembaga ini menguji dan mengembangkan mitigasi untuk risiko tersebut melalui eksperimen terkontrol, evaluasi empiris, dan analisis skenario. Dalam menetapkan prioritas, AI Security Institute mempertimbangkan potensi kerugian luas, ancaman terhadap keamanan nasional, dan sejauh mana risiko diperkuat oleh frontier AI. Lembaga ini juga menilai apakah solusi yang dibutuhkan merupakan jenis solusi yang paling tepat dikembangkan oleh lembaga riset yang didukung pemerintah.

Sebagai lembaga riset publik dengan kapasitas teknis besar, AISI berada pada posisi strategis untuk menghasilkan dampak nyata. Lembaga ini berfokus pada tiga jalur utama yang saling melengkapi. Pertama, mengembangkan pemahaman kelas dunia tentang risiko frontier AI melalui studi empiris dan analisis teoretis. Kedua, merancang dan menjalankan evaluasi untuk mengukur dan mengkarakterisasi risiko tersebut secara sistematis. Ketiga, meneliti, menguji, dan mengembangkan mitigasi serta pengaman teknis yang dapat diterapkan oleh pengembang model, regulator, dan operator sistem.

Struktur Riset: Domain Risiko dan Riset Umum

Riset risiko AISI terbagi dalam dua kategori besar. Kategori pertama adalah domain risiko, yang mencakup risiko paling kritis yang perlu dikelola pemerintah. Risiko ini berpotensi menimbulkan kerugian luas dan mengancam keamanan nasional, termasuk gangguan terhadap layanan publik dan infrastruktur vital. Daftar domain risiko akan terus diperbarui seiring bertambahnya bukti dari pemerintah, masyarakat, dan komunitas keamanan nasional. Prioritas saat ini meliputi risiko keamanan siber dari AI tingkat lanjut, penyalahgunaan AI untuk kejahatan, risiko dari sistem otonom, risiko manipulasi dan pengaruh, serta risiko kimia-biologis dan ilmu pengetahuan dual-use.

Kategori kedua adalah riset umum yang bertujuan membangun metode dasar untuk memahami risiko frontier AI di berbagai domain. Fokusnya mencakup teknik untuk menggali performa sejati model dan mengukur kapabilitasnya secara komprehensif dan andal. AISI juga melakukan pemantauan ke depan dan meninjau ulang fokus riset secara berkala untuk menyesuaikan dengan bukti baru. Salah satu area minat yang sedang berkembang adalah risiko Child Sexual Abuse Material yang timbul dari model AI, baik proprietary maupun open-source, yang memerlukan pendekatan teknis dan regulasi yang sangat ketat.

Dalam domain keamanan siber, AI Security Institute menyoroti meningkatnya kemampuan sistem AI dalam tugas yang relevan dengan operasi siber. Jika dimanfaatkan aktor jahat, sistem ini dapat meningkatkan volume dan kecanggihan serangan siber secara signifikan. Hal ini menimbulkan risiko serius bagi keamanan siber, termasuk ancaman terhadap infrastruktur nasional kritis seperti energi, kesehatan, dan keuangan. AISI bertujuan memahami dan menilai risiko aktivitas siber jahat yang dimungkinkan oleh frontier AI serta mengeksplorasi strategi mitigasi yang dapat diterapkan pengembang model dan operator sistem.

Keamanan Siber, Penyalahgunaan Kriminal, dan Sistem Otonom

Rangkaian kerja di bidang keamanan siber mencakup tiga pilar utama. Pertama, memahami risiko dengan mengkarakterisasi peran AI dalam berbagai tahap serangan siber dan mengidentifikasi operasi yang paling mungkin ditingkatkan oleh artificial intelligence. Kedua, membangun evaluasi yang mengukur kapabilitas model dalam kondisi realistis, termasuk probing oleh pakar dan stress-test bergaya red-team yang meniru serangan dunia nyata. Ketiga, meneliti mitigasi dengan mengevaluasi langkah teknis dan kebijakan, menguji efektivitas pengaman, dan mengeksplorasi mekanisme penerapan aman yang dapat diintegrasikan ke dalam siklus hidup pengembangan sistem AI.

Dalam domain penyalahgunaan kriminal, AI Security Institute menilai bagaimana frontier AI dapat meningkatkan berbagai aktivitas kriminal melampaui kemampuan internet saat ini. Masih terdapat ketidakpastian mengenai bentuk kejahatan yang paling mungkin diperkuat AI dan konsekuensi dunia nyatanya, sehingga diperlukan penelitian empiris yang sistematis. AISI berupaya menilai secara empiris sejauh mana frontier AI dapat mengangkat aktivitas kriminal dan mengembangkan model ancaman yang lincah. Tujuannya adalah mengidentifikasi dan memitigasi risiko kriminal berbasis AI yang paling signifikan bagi masyarakat dan penegak hukum.

Rangkaian kerja di bidang ini meliputi pemetaan kategori kejahatan yang dapat dimungkinkan atau diskalakan oleh AI, analisis perubahan kapabilitas pelaku kriminal, dan kajian umpan balik antara kejahatan berbasis AI dan penegakan hukum. AISI juga mengembangkan tolok ukur dan skenario untuk menguji kemampuan model dalam membantu aktivitas kriminal, termasuk simulasi permintaan berbahaya. Lembaga ini mengukur seberapa sering model mematuhi atau menolak permintaan berbahaya dan membandingkan bantuan AI dengan alat yang sudah ada. Di sisi mitigasi, AI Security Institute merancang filter keselamatan, metode pemantauan, dan mekanisme deteksi anomali, serta bekerja sama dengan pembuat kebijakan dan industri untuk mengintegrasikan temuan ke dalam regulasi.

Risiko Sistem Otonom dan Manipulasi Berbasis AI

Dalam domain sistem otonom, AI Security Institute menyoroti risiko ketika model semakin mampu bertindak secara mandiri tanpa pengawasan manusia yang memadai. Sistem semacam ini dapat menyebabkan kerugian katastrofik jika tidak diawasi dengan baik dan tidak dilengkapi mekanisme kontrol yang kuat. Tim Autonomous Systems menyelidiki apakah frontier AI memiliki mekanisme kontrol dan alignment yang memadai untuk mencegah perilaku berbahaya. Fokusnya adalah memastikan sistem tidak berupaya menyebabkan peristiwa katastrofik atau tidak mampu melakukannya karena adanya batasan teknis dan prosedural.

Rangkaian kerja mencakup analisis skenario di mana sistem AI bertindak otonom di berbagai jaringan dan infrastruktur. AISI menyelidiki kemungkinan sistem mereplikasi diri secara otonom di internet dan mengeksplorasi jalur untuk memperoleh akses ke sumber daya kritis. Lembaga ini merancang tes untuk menguji kemampuan model melewati mekanisme kontrol, mengevaluasi ketahanan protokol kontrol, dan menilai bagaimana tantangan kontrol meningkat seiring kapabilitas model. AISI juga mengembangkan metode untuk mendeteksi tujuan yang tidak selaras, menguji model dalam skenario berisiko tinggi, dan mengukur kecenderungan model memilih tindakan berbahaya.

Dalam domain manipulasi dan pengaruh, AI Security Institute meneliti bagaimana sistem AI yang sangat mampu dapat memanipulasi, membujuk, menipu, atau memengaruhi orang. Seiring meningkatnya ketergantungan individu pada sistem AI, risiko manipulasi yang merusak otonomi individu juga meningkat secara signifikan. Dalam skala besar, hal ini dapat memungkinkan manipulasi kelompok besar dan menimbulkan ketidakstabilan sosial, termasuk polarisasi politik dan erosi kepercayaan publik. Oleh karena itu, pemahaman ilmiah mengenai dinamika pengaruh AI menjadi prioritas penting.

Pengukuran Kapabilitas, Measurement Science, dan Capability Elicitation

AISI memantau risiko manipulasi melalui pengumpulan dan analisis data tentang penerapan nyata sistem AI yang berinteraksi dengan pengguna dalam skala besar. Lembaga ini menganalisis pola konten persuasif atau manipulatif dan mengidentifikasi konteks dengan dampak sistemik tinggi. Bersama ilmuwan sosial, ahli etika, dan pembuat kebijakan, AI Security Institute mendefinisikan bentuk manipulasi yang tidak dapat diterima dan merumuskan kriteria normatif. AISI merancang langkah teknis untuk membatasi kapabilitas manipulatif sambil mempertahankan penggunaan yang bermanfaat, serta mengevaluasi peran desain antarmuka, transparansi, dan kontrol pengguna.

Selain domain risiko, AI Security Institute mengembangkan fondasi ilmiah untuk pengukuran dan evaluasi frontier AI. Dalam bidang measurement science, AISI menanggapi kebutuhan akan metode evaluasi yang lebih matang dan konsisten. Peningkatan cepat sistem frontier AI telah menimbulkan kekurangan konsensus mengenai metode, terminologi, dan protokol pengukuran yang dapat diandalkan. Praktik analisis data yang tidak konsisten dan perlakuan ketidakpastian yang terbatas memperkuat kebutuhan pendekatan empiris yang kuat dan transparan.

AISI bertujuan menjadi otoritas independen mengenai kualitas dan keterbatasan pengukuran kapabilitas frontier AI. Lembaga ini mengembangkan metodologi dan terminologi baku, meningkatkan desain eksperimen dan analisis statistik, serta menyelidiki cara membuat prediksi andal ketika data terbatas. AI Security Institute juga mengaudit dan melakukan stress-test terhadap suite evaluasi yang ada untuk menilai ketangguhan dan validitasnya, sehingga hasil pengukuran dapat digunakan sebagai dasar kebijakan publik dan standar industri.

Solusi, Safeguards, dan Protokol Kontrol

Dalam bidang capability elicitation, AI Security Institute mengembangkan metode untuk mengungkap kapabilitas laten sistem frontier AI. Banyak sistem tidak menampilkan seluruh kapabilitasnya tanpa teknik elicitation yang terarah dan sistematis. Tanpa teknik tersebut, pembuat kebijakan dan pengembang model dapat meremehkan batas kapabilitas AI dan kecepatan penyebarannya, yang berpotensi menimbulkan risiko tak terduga. AISI mengembangkan metode sistematis untuk mem-probing model, teknik eksplorasi aman untuk kapabilitas berbahaya, dan kerangka kerja untuk menafsirkan hasil elicitation dalam penilaian risiko yang lebih luas.

Selain mengidentifikasi risiko, AI Security Institute meneliti solusi dan safeguards yang dapat diterapkan secara praktis. Tim Solutions berfokus pada pengembangan kontrol, safeguards, dan alignment yang dirancang untuk menghadapi aktor adversarial dan skenario berisiko tinggi. Dalam bidang safeguards and adversarial misuse, AISI mempelajari bagaimana sistem AI yang semakin tertanam dalam masyarakat akan menarik perhatian aktor adversarial. Lembaga ini mengevaluasi efektivitas safeguards, merancang tes untuk menilai respons model terhadap prompt adversarial, dan mempelajari perilaku aktor dunia nyata yang berinteraksi dengan sistem AI. AISI juga mengembangkan arsitektur safeguard yang lebih tangguh di tingkat model dan sistem.

Dalam bidang control protocols, AI Security Institute menyoroti keterbatasan metode alignment saat ini yang mungkin tidak memadai untuk sistem yang sangat kuat. Seiring meningkatnya kapabilitas AI, risiko bahwa sistem dapat secara otonom mewujudkan hasil katastrofik juga meningkat dan memerlukan protokol kontrol yang lebih ketat. Tim Control bertujuan memajukan protokol kontrol dan evaluasi kontrol agar tetap efektif menuju era artificial general intelligence dan artificial superintelligence. Fokusnya adalah sistem AI yang diterapkan dalam infrastruktur internal pengembang frontier, yang memiliki akses ke kode dan sistem sensitif.

Alignment, Kejujuran Sistem, dan Peran Global AISI

AISI mengeksplorasi konsep AI control safety case, yaitu argumen terstruktur bahwa model tidak mampu menyabotase protokol kontrol hingga menghasilkan hasil yang tidak dapat diterima. Contohnya adalah safety case untuk penerapan internal agen LLM hipotetis di perusahaan AI yang memiliki akses luas ke sistem internal. Safety case tersebut berpusat pada latihan red-teaming dan klaim mengenai keluasan pengujian, ketangguhan mekanisme kontrol, serta risiko residual yang masih dapat diterima oleh organisasi dan regulator.

Dalam bidang alignment and honesty, AI Security Institute menyoroti belum adanya metode andal untuk memastikan sistem AI yang sangat mampu tidak mengelak dari safeguards. Seiring meningkatnya kekuatan sistem, metode pengawasan dan kontrol perilaku menjadi kurang dapat diandalkan jika tidak diperkuat dengan pendekatan baru. Pertanyaan kunci adalah apakah kita dapat mencegah sistem tersebut berupaya menyebabkan kerugian sejak awal melalui desain arsitektur dan pelatihan. AISI menekankan kombinasi jaminan teoretis dan bukti empiris untuk memastikan kejujuran sistem AI seiring skalanya melampaui AGI menuju superintelligence.

Rangkaian kerja mencakup pendefinisian sub-masalah alignment yang berfokus pada konteks pemicu perilaku jahat, pengembangan teknik untuk mengelicit dan mendeteksi kecenderungan menipu, serta eksplorasi pendekatan pelatihan dan arsitektur yang mendorong kejujuran. AISI juga menyelidiki bagaimana jaminan tentang kejujuran dan perilaku non-jahat dapat diformalkan dan diuji secara empiris, sehingga dapat menjadi dasar standar teknis dan regulasi. Dengan membagikan agenda riset ini, AI Security Institute bertujuan memberikan gambaran jelas tentang pemikiran dan pendekatan saat ini, sekaligus memobilisasi organisasi riset lain di sekitar bidang keamanan AI yang kritis dan berkembang pesat.

AI Security Institute beroperasi di dalam Departemen Sains, Inovasi, dan Teknologi Inggris dan berupaya menjadi rujukan global dalam keamanan AI. Melalui kombinasi riset ilmiah, evaluasi teknis, dan kolaborasi lintas sektor, AISI berkontribusi pada pembentukan ekosistem artificial intelligence yang aman, andal, dan bertanggung jawab bagi masyarakat luas. Dalam konteks perlombaan global mengembangkan AI tingkat lanjut, agenda riset ini menegaskan bahwa keamanan bukan sekadar pelengkap, melainkan prasyarat utama bagi inovasi yang berkelanjutan.