Daftar Isi
Masalah Halusinasi dalam Model Penalaran AI
Kemajuan terbaru dalam model penalaran AI, khususnya yang digunakan dalam chatbot, telah memicu peningkatan tingkat halusinasi yang berdampak pada akurasi keluaran. Masalah ini lebih kompleks dari perkiraan karena kesalahan kerap muncul dalam konten yang dihasilkan AI. Meski raksasa teknologi seperti OpenAI dan Google terus meningkatkan kemampuan penalaran chatbot, evaluasi terkini menunjukkan beberapa model terbaru kadang berkinerja lebih buruk dibanding pendahulunya. Halusinasi—AI menyajikan informasi palsu sebagai benar atau jawaban tak relevan—telah menjadi tantangan berkelanjutan sejak kemunculan LLM seperti ChatGPT dan Gemini.
Evaluasi Model Terbaru dan Dampaknya
Laporan teknis OpenAI mengungkap model o3 dan o4-mini (rilis April) menunjukkan tingkat halusinasi lebih tinggi dibanding o1 (akhir 2024). Saat merangkum informasi publik tentang individu, o3 berhalusinasi 33% dan o4-mini 48%, sementara o1 16%. Temuan serupa terlihat pada papan peringkat Vectara, di mana beberapa model penalaran—termasuk DeepSeek-R1—mengalami kenaikan signifikan. Meski model menjalankan beberapa langkah penalaran sebelum merespons, OpenAI menegaskan proses penalaran bukan penyebab utamanya dan tengah bekerja menurunkan tingkat halusinasi.
Implikasi dan Kritik terhadap Istilah Halusinasi
Persistensi halusinasi berisiko bagi aplikasi LLM: asisten riset yang butuh verifikasi ekstra, bot paralegal yang mengutip kasus imajiner, hingga agen customer service yang merujuk kebijakan usang. Awalnya diprediksi menurun seiring pembaruan model, lonjakan terbaru justru memperumit narasi tersebut—terlepas dari aspek penalaran.
Penilaian dan Saran untuk Penggunaan Model AI
Papan peringkat Vectara menilai konsistensi faktual saat merangkum dokumen dan menunjukkan tingkat halusinasi serupa antara model penalaran dan non-penalaran dari OpenAI dan Google. Angka spesifik kurang penting dibanding peringkat keseluruhan karena berbagai tipe halusinasi tercampur; misalnya DeepSeek-R1 (14,3%) banyak menghasilkan kesalahan “jinak”—masuk akal secara logis namun tak ada di teks sumber.
Kritik terhadap Penggunaan Istilah Halusinasi
Emily Bender menilai uji berbasis rangkuman tidak mewakili tugas lain yang dijalankan LLM. Karena LLM memprediksi kata berikutnya, hasil papan peringkat belum tentu ukuran terbaik. Ia mengkritik istilah “halusinasi” karena mengantropomorfisasi mesin dan menyiratkan sistem pada dasarnya andal, padahal keluaran salah bukan sekadar penyimpangan.
Masalah Lebih Lanjut dan Saran Penggunaan AI
Arvind Narayanan menyoroti isu di luar halusinasi: ketergantungan pada sumber tidak andal atau data usang. Menambah data pelatihan atau komputasi belum tentu menyelesaikan masalah. Praktisnya, gunakan model ketika pengecekan fakta atas respons AI lebih cepat daripada riset mandiri, dan hindari mengandalkan chatbot untuk informasi faktual penting tanpa verifikasi.