Daftar Isi
- OpenAI GPT-4 Mendominasi Evaluasi Halusinasi AI
- GPT-4 dan GPT-4 Turbo Model AI yang Unggul
- Performa Unggul Model AI Non-OpenAI
- Pelatihan Vectara dalam Mendeteksi Halusinasi
- Signifikansi Papan Peringkat untuk AI Generatif
- Model Evaluasi Halusinasi Vectara sebagai Open Source
- Pendekatan Shane Connelly terhadap Vectara
OpenAI GPT-4 Mendominasi Evaluasi Halusinasi AI
Model AI OpenAI GPT-4 unggul dalam evaluasi halusinasi menurut papan peringkat terbaru dari Vectara, menegaskan posisinya sebagai model bahasa unggulan. Vectara, berbasis di Palo Alto, merilis peringkat di GitHub untuk menilai model bahasa besar utama dalam Evaluasi Halusinasi. Evaluasi ini bertujuan untuk mengukur seberapa sering model bahasa besar memperkenalkan halusinasi saat merangkum dokumen.
GPT-4 dan GPT-4 Turbo Model AI yang Unggul
Menurut papan peringkat tersebut, GPT-4 dan GPT-4 Turbo dari OpenAI menduduki peringkat teratas dengan tingkat akurasi tertinggi (97%) dan tingkat halusinasi terendah (3%) dari semua model yang diuji. Model OpenAI lainnya, seperti GPT Turbo, juga mencetak peringkat yang tinggi dalam hal akurasi dan tingkat halusinasi.
Performa Unggul Model AI Non-OpenAI
Namun, model non-OpenAI juga mendapatkan peringkat yang baik dalam papan peringkat ini. Versi 70 miliar parameter dari Llama 2 dari Meta, misalnya, mencetak skor akurasi yang tinggi dan tingkat halusinasi yang rendah. Di sisi lain, model dari Google, seperti Google Palm 2, mendapatkan peringkat yang buruk dengan tingkat akurasi yang rendah dan tingkat halusinasi yang tinggi.
Pelatihan Vectara dalam Mendeteksi Halusinasi
Vectara melatih model mereka untuk mendeteksi halusinasi dalam keluaran model bahasa besar dengan menggunakan kumpulan data sumber terbuka. Mereka memberikan 1.000 dokumen pendek kepada setiap model melalui API publik mereka dan meminta model untuk merangkum dokumen tersebut hanya dengan menggunakan fakta-fakta yang disajikan dalam dokumen. Dari 1.000 dokumen tersebut, hanya 831 yang berhasil diringkas oleh setiap model.
Signifikansi Papan Peringkat untuk AI Generatif
Papan peringkat ini memberikan informasi yang penting bagi perusahaan yang ingin mengadopsi sistem AI generatif. Risiko halusinasi telah menjadi hambatan bagi banyak bisnis untuk mengadopsi teknologi ini. Dengan adanya papan peringkat ini, perusahaan dapat memperoleh informasi yang mereka butuhkan untuk memiliki kepercayaan yang diperlukan dalam mengaktifkan sistem generatif.
Model Evaluasi Halusinasi Vectara sebagai Open Source
Model Evaluasi Halusinasi yang dikembangkan oleh Vectara juga merupakan open source, yang berarti perusahaan lain dapat menggunakannya untuk mengevaluasi kepercayaan pada model bahasa besar mereka. Hal ini dapat membantu perusahaan dalam menganalisis dan mengukur tingkat halusinasi dalam sistem Retrieval Augmented Generation (RAG) mereka.
Pendekatan Shane Connelly terhadap Vectara
Dalam sebuah pos blog, Shane Connelly, kepala produk di Vectara, menulis bahwa upaya sebelumnya untuk mengkuantifikasi halusinasi dalam model generatif terlalu abstrak dan kontroversial. Oleh karena itu, Model Evaluasi Halusinasi yang dikembangkan oleh Vectara memberikan pendekatan yang lebih terukur dan berguna bagi banyak orang.