Prinsip-prinsip Pembelajaran Robot dan AI: Pengingat Penting
Diperlukan pengingat tentang prinsip-prinsip pembelajaran robot dan AI: beberapa masalah besar dalam pembangunan generasi berikutnya mungkin terkait dengan gagasan insentif yang tidaktepat sasaran, seperti yang terjadi dalam cerita Dylan Hadfield-Mennell tentang permainan video kapal yang hanya berputar-putar di papan, bukannya bermain sesuai dengan yang seharusnya. Contoh visual ini, yang dapat Anda lihat dalam video, adalah kasus klasik dari miskalibrasi AI: desainer program mengira bahwa Anda dapat menargetkan skor poin yang lebih tinggi, dan AI akan tahu apa yang harus dilakukan. Tapi ternyata, itu tidak berhasil. Setelah cerita peringatan ini, Hadfield-Mennell menjelaskan: Dalam jenis penelitian seperti ini, ketika menetapkan tujuan dan mengkalibrasi sistem, kita harus bertanya: apa yang sedang dioptimalkan oleh model yang diberikan? Hadfield-Mennell membahas sesuatu yang disebut hukum Goodhart, yang menyiratkan bahwa begitu suatu ukuran menjadi target, maka ukuran tersebut tidak lagi menjadi ukuran yang baik. Dia juga menyebutkan sebuah makalah tentang masalah prinsipal-agen yang disebut kebodohan memberi hadiah A, sementara berharap B. Banyak contoh sistem penghargaan yang rusak karena perilaku yang dihargai adalah perilaku yang ingin dihindari oleh pemberi hadiah, katanya. Jadi ini adalah sesuatu yang terjadi di mana-mana. Dia juga memberikan contoh sejarah program penghargaan ular kobras di India, yang bertujuan untuk mengendalikan populasi ular kobras yang mematikan, di mana orang membiakkan ular untuk mengumpulkan hadiah – tonton videonya untuk mengetahui apa yang terjadi! (spoiler alert di akhir, jumlah ularnya bahkan lebih banyak). Ketika kita memikirkan penerapan hukum Goodhart pada AI, kita bertanya-tanya berapa banyak orang yang bekerja pada hal ini, dan apakah kita akan memberikan cukup penekanan pada jenis analisis ini. Beberapa sumber menyarankan penelitian yang lebih luas: misalnya, penulis OpenAI membicarakan tentang metode best-of-n sampling sebagai metodologi: Meskipun metode ini sangat sederhana, sebenarnya bisa bersaing dengan teknik yang lebih canggih seperti reinforcement learning, meskipun dengan biaya komputasi yang lebih tinggi saat inferensi. Misalnya, dalam WebGPT, model best-of-64 kami lebih unggul daripada model reinforcement learning kami, mungkin sebagian karena model best-of-64 kami dapat menjelajahi banyak situs web. Bahkan menerapkan best-of-4 memberikan peningkatan signifikan pada preferensi manusia. Mereka juga menyebutkan sesuatu yang disebut algoritma Ridge Rider yang menggunakan optimisasi yang beragam untuk menyeimbangkan tujuannya. Dan ya, subjek vektor eigen dan nilai eigen muncul sebagai cara untuk membicarakan tentang matematika dari jenis penargetan kinerja yang rumit. Kembali ke pembicaraan Hadfield-Mennell, di mana dia membahas tentang utilitas proksi secara detail. Ini hanya potongan kecil dari bagian tersebut, di mana Anda dapat mendengarkan konteks lengkap dari rangkaian masalah tersebut, dan memikirkan bagaimana prinsip ini bekerja dalam skenario tertentu: Untuk setiap proksi, properti yang sama terjadi, katanya. Dan kami dapat menunjukkan bahwa ini bukan hanya masalah individu ini, tetapi sebenarnya, untuk kategori masalah yang sangat luas. Jika Anda memiliki sumber daya bersama dan tujuan yang tidak lengkap, Anda akan melihat properti konsisten dari utilitas sejati meningkat, dan kemudian menurun. Dalam fokus yang berbeda pada kalibrasi, Hadfield-Mennell menyajikan permainan ketaatan dengan fitur yang hilang, dan membahas tentang mendapatkan jumlah fitur yang tepat, untuk memberikan penargetan. Dia juga membahas konsekuensi dari AI yang tidak sejalan, menggunakan kerangka kerja tertentu yang, sekali lagi, dia jelaskan dalam konteks: Anda dapat berpikir ada dua fase optimasi yang tidak lengkap. Di fase satu, di mana optimasi yang tidak lengkap bekerja, Anda sebagian besar mengalokasikan ulang sumber daya antara hal-hal yang dapat Anda ukur ini adalah menghilangkan kelebihan dari masalah, dalam beberapa arti. Tapi pada suatu titik, Anda mencapai optimalitas Pareto. Di sana, tidak ada yang bisa Anda lakukan hanya dengan mengalokasikan ulang hal-hal antara nilai-nilai tersebut. Sebaliknya, optimasi beralih ke ekstraksi sumber daya dari hal-hal yang tidak Anda ukur, dan mengalokasikannya kembali ke hal-hal yang Anda ukur. Mungkin membutuhkan sedikit usaha untuk mengikutinya Nah, gagasan-gagasan itu sendiri berguna dalam memperbaiki pekerjaan AI kita, dan memastikan bahwa kita menempatkan penekanan pada tempat yang tepat. Ini hanya contoh lain dari wawasan unik yang kita dapatkan sepanjang Imagination in Action, yang akan membawa kita pada pemahaman yang lebih baik tentang inovasi di zaman kita.