{Mengatasi Tantangan Halusinasi AI pada Chatbot}

May 24, 2025 | by Luna
“`html

Masalah Halusinasi dalam Model Penalaran AI

Kemajuan terbaru dalam model penalaran AI, khususnya yang digunakan dalam chatbot, telah memicu peningkatan tingkat halusinasi, yang berdampak pada akurasi keluaran. Masalah ini ternyata lebih rumit dari yang diperkirakan, karena kesalahan sering kali muncul dalam konten yang dihasilkan AI. Meskipun perusahaan teknologi besar seperti OpenAI dan Google berusaha meningkatkan kemampuan penalaran chatbot branda, evaluasi terkini menunjukkan bahwa model terbaru kadang-kadang berkinerja lebih buruk dibandingkan pendahulunya. Halusinasi, istilah yang menggambarkan kesalahan di mana AI menyajikan informasi palsu sebagai benar atau memberikan jawaban yang tidak relevan, telah menjadi tantangan yang terus-menerus sejak awal model bahasa besar (LLM) seperti ChatGPT dari OpenAI dan Gemini dari Google.

Evaluasi Model Terbaru dan Dampaknya

Laporan teknis dari OpenAI mengungkapkan bahwa model terbaru branda, o3 dan o4-mini, yang dirilis pada bulan April, menunjukkan tingkat halusinasi yang lebih tinggi dibandingkan dengan model o1 sebelumnya dari akhir 2024. Misalnya, ketika merangkum informasi yang tersedia secara publik tentang individu, model o3 berhalusinasi 33% dari waktu, sementara o4-mini melakukannya 48% dari waktu, berbeda dengan tingkat 16% dari o1. Masalah ini tidak hanya dialami oleh OpenAI; papan peringkat Vectara, yang menilai tingkat halusinasi, menunjukkan bahwa beberapa model penalaran, termasuk DeepSeek-R1 dari DeepSeek, mengalami peningkatan signifikan dalam tingkat halusinasi dibandingkan dengan versi sebelumnya. Model-model ini menjalani beberapa langkah untuk menunjukkan penalaran sebelum merespons, namun OpenAI menyatakan bahwa proses penalaran itu sendiri bukanlah penyebab peningkatan halusinasi. Seorang juru bicara OpenAI menyatakan, “Halusinasi tidak secara inheren lebih umum dalam model penalaran, meskipun kami secara aktif bekerja untuk mengurangi tingkat halusinasi yang lebih tinggi yang kami lihat dalam o3 dan o4-mini.”

Implikasi dan Kritik terhadap Istilah Halusinasi

Persistensi halusinasi menimbulkan risiko bagi potensi aplikasi LLM. Model yang secara konsisten menghasilkan kebohongan yang memerlukan pengecekan fakta tidak cocok sebagai asisten penelitian, bot paralegal yang mengutip kasus imajiner dapat membahayakan proses hukum, dan agen customer service yang merujuk kebijakan yang sudah usang dapat menciptakan kebingungan. Awalnya, perusahaan AI menyarankan bahwa halusinasi akan berkurang seiring waktu, dan model awal memang menunjukkan peningkatan dengan pembaruan. Namun, lonjakan terbaru dalam tingkat halusinasi memperumit narasi ini, terlepas dari peran penalaran.

Penilaian dan Saran untuk Penggunaan Model AI

Papan peringkat Vectara memberi peringkat model berdasarkan konsistensi faktual branda dalam merangkum dokumen, mengungkapkan bahwa tingkat halusinasi serupa untuk model penalaran dan non-penalaran dari OpenAI dan Google, menurut Forrest Sheng Bao di Vectara. Google tidak memberikan komentar lebih lanjut. Bao mencatat bahwa angka tingkat halusinasi spesifik kurang signifikan dibandingkan dengan peringkat model secara keseluruhan, meskipun metode peringkat ini mungkin tidak ideal untuk membandingkan model AI. Ini menggabungkan berbagai jenis halusinasi, seperti yang ditunjukkan oleh model DeepSeek-R1, yang berhalusinasi 14,3% dari waktu, sebagian besar dengan kesalahan “jinak”—jawaban yang didukung oleh penalaran logis atau pengetahuan dunia tetapi tidak ada dalam teks asli. DeepSeek tidak memberikan komentar lebih lanjut.

Kritik terhadap Penggunaan Istilah Halusinasi

Emily Bender dari Universitas Washington menunjukkan bahwa pengujian berbasis rangkuman teks tidak menangani tingkat keluaran yang salah dalam tugas lain yang dilakukan oleh LLM. Dia berpendapat bahwa hasil papan peringkat mungkin bukan ukuran terbaik dari teknologi ini, karena LLM tidak secara khusus dirancang untuk merangkum teks. Model-model ini menghasilkan respons dengan memprediksi kata berikutnya yang mungkin, daripada memproses informasi dalam pengertian konvensional. Meskipun demikian, perusahaan teknologi terus menggunakan istilah “halusinasi” untuk menggambarkan kesalahan keluaran. Bender mengkritik istilah tersebut, dengan menyatakan, “‘Halusinasi’ sebagai istilah adalah masalah ganda. Ini menyarankan bahwa keluaran yang salah adalah penyimpangan, yang mungkin dapat diatasi, sambil menyiratkan bahwa sistem pada dasarnya dapat diandalkan. Selain itu, ini mengantropomorfisasi mesin, karena halusinasi melibatkan persepsi sesuatu yang tidak ada, yang tidak dilakukan oleh LLM.”

Masalah Lebih Lanjut dan Saran Penggunaan AI

Arvind Narayanan dari Universitas Princeton menekankan bahwa masalah ini melampaui halusinasi, karena model kadang-kadang mengandalkan sumber yang tidak dapat diandalkan atau informasi yang sudah usang. Meningkatkan data pelatihan dan daya komputasi belum tentu menyelesaikan masalah ini. Akibatnya, kita mungkin perlu menerima AI yang rentan terhadap kesalahan. Narayanan menyarankan dalam sebuah posting media sosial bahwa mungkin bijaksana untuk menggunakan model semacam itu hanya ketika pengecekan fakta terhadap respons AI lebih cepat daripada melakukan penelitian secara mandiri. Bender menyarankan untuk tidak mengandalkan chatbot AI untuk informasi faktual sama sekali.

“`
Recommended Article