OpenAI GPT-4 Mendominasi Papan Peringkat Evaluasi Halusinasi

November 22, 2023 | by Luna

OpenAI GPT-4 Mendominasi Evaluasi Halusinasi AI

Model AI OpenAI GPT-4 unggul dalam evaluasi halusinasi menurut papan peringkat terbaru dari Vectara, menegaskan posisinya sebagai model bahasa unggulan. Vectara, berbasis di Palo Alto, merilis peringkat di GitHub untuk menilai model bahasa besar utama dalam Evaluasi Halusinasi.  Evaluasi ini bertujuan untuk mengukur seberapa sering model bahasa besar memperkenalkan halusinasi saat merangkum dokumen.

GPT-4 dan GPT-4 Turbo Model AI yang Unggul

Menurut papan peringkat tersebut, GPT-4 dan GPT-4 Turbo dari OpenAI menduduki peringkat teratas dengan tingkat akurasi tertinggi (97%) dan tingkat halusinasi terendah (3%) dari semua model yang diuji. Model OpenAI lainnya, seperti GPT Turbo, juga mencetak peringkat yang tinggi dalam hal akurasi dan tingkat halusinasi.

Performa Unggul Model AI Non-OpenAI

Namun, model non-OpenAI juga mendapatkan peringkat yang baik dalam papan peringkat ini. Versi 70 miliar parameter dari Llama 2 dari Meta, misalnya, mencetak skor akurasi yang tinggi dan tingkat halusinasi yang rendah. Di sisi lain, model dari Google, seperti Google Palm 2, mendapatkan peringkat yang buruk dengan tingkat akurasi yang rendah dan tingkat halusinasi yang tinggi.

Pelatihan Vectara dalam Mendeteksi Halusinasi

Vectara melatih model mereka untuk mendeteksi halusinasi dalam keluaran model bahasa besar dengan menggunakan kumpulan data sumber terbuka. Mereka memberikan 1.000 dokumen pendek kepada setiap model melalui API publik mereka dan meminta model untuk merangkum dokumen tersebut hanya dengan menggunakan fakta-fakta yang disajikan dalam dokumen. Dari 1.000 dokumen tersebut, hanya 831 yang berhasil diringkas oleh setiap model.

Signifikansi Papan Peringkat untuk AI Generatif

Papan peringkat ini memberikan informasi yang penting bagi perusahaan yang ingin mengadopsi sistem AI generatif. Risiko halusinasi telah menjadi hambatan bagi banyak bisnis untuk mengadopsi teknologi ini. Dengan adanya papan peringkat ini, perusahaan dapat memperoleh informasi yang mereka butuhkan untuk memiliki kepercayaan yang diperlukan dalam mengaktifkan sistem generatif.

Model Evaluasi Halusinasi Vectara sebagai Open Source

Model Evaluasi Halusinasi yang dikembangkan oleh Vectara juga merupakan open source, yang berarti perusahaan lain dapat menggunakannya untuk mengevaluasi kepercayaan pada model bahasa besar mereka. Hal ini dapat membantu perusahaan dalam menganalisis dan mengukur tingkat halusinasi dalam sistem Retrieval Augmented Generation (RAG) mereka.

Pendekatan Shane Connelly terhadap Vectara

Dalam sebuah pos blog, Shane Connelly, kepala produk di Vectara, menulis bahwa upaya sebelumnya untuk mengkuantifikasi halusinasi dalam model generatif terlalu abstrak dan kontroversial. Oleh karena itu, Model Evaluasi Halusinasi yang dikembangkan oleh Vectara memberikan pendekatan yang lebih terukur dan berguna bagi banyak orang.

Recommended Article