Daftar Isi
Whisper v3 OpenAI: Peningkatan Pengenalan Ucapan untuk Aplikasi Bisnis
Whisper v3, yang dikembangkan oleh OpenAI, telah menghadirkan peningkatan signifikan dalam pengenalan ucapan untuk aplikasi bisnis. OpenAI tingkatkan Whisper, sistem pengenalan ucapan, dengan lebih dari satu juta jam data pelatihan, meningkatkan pemahaman bahasa dan mengurangi kesalahan. Model open source ini dapat digunakan oleh bisnis untuk meningkatkan layanan pelanggan dan generasi konten.
Performa Whisper v3 dalam Berbagai Bahasa
Whisper v3, yang diumumkan pada acara OpenAI DevDay minggu lalu, menawarkan performa yang lebih baik dalam berbagai bahasa. OpenAI telah menambahkan token bahasa baru untuk bahasa Kanton, sehingga meningkatkan kemampuan Whisper dalam mengenali bahasa tersebut. Whisper pertama kali diungkapkan pada September 2022 dan telah digunakan untuk menerjemahkan potongan audio menjadi teks. Aplikasi ini dapat digunakan untuk terjemahan ucapan, identifikasi bahasa, dan bahkan deteksi aktivitas suara, sehingga sangat cocok untuk aplikasi asisten suara.
Whisper: Solusi Dual-Modal untuk Pengembangan Aplikasi
Whisper juga dapat digunakan untuk mentranskripsi panggilan pelanggan atau menghasilkan versi berbasis teks dari konten audio. Ketika digabungkan dengan model generasi teks OpenAI, seperti GPT-4 Turbo baru, pengembang dapat membangun aplikasi dual-modal yang kuat. Romain Huet, kepala pengalaman pengembang OpenAI, telah menunjukkan bagaimana menggabungkan Whisper dengan solusi OpenAI lainnya dapat digunakan untuk menggerakkan aplikasi. Dia menggunakan Whisper untuk mengubah masukan suara menjadi teks bersama dengan model GPT-4 Turbo baru untuk menggerakkan opsi asisten dan API Text-to-speech baru untuk membuatnya berbicara.
Spesifikasi dan Varian Whisper v3
Platform Whisper v3 telah dilatih dengan 5 juta jam audio, di mana satu juta jam diberi label lemah dan empat juta jam diberi label semu. Whisper v3 dibangun dengan model Transformer sequence-to-sequence yang memproses urutan token yang mewakili data audio dan mendekodekannya untuk menghasilkan output yang diinginkan. Whisper v3 hadir dalam berbagai ukuran, sehingga pengguna dapat memilih ukuran yang sesuai dengan aplikasi mereka. Versi terkecil, Tiny Tiny, memiliki 39 juta parameter, sementara versi terbesar, Large Large, memiliki 1550 juta parameter.
Prestasi dan Rencana Masa Depan Whisper v3
Dalam pengujian dengan benchmark model audio seperti Common Voice 15 dan Fleurs, OpenAI mengatakan bahwa Whisper v3 mencapai tingkat kesalahan yang lebih rendah daripada model Whisper sebelumnya yang dirilis pada Desember 2022. CEO OpenAI, Sam Altman, menyambut baik Whisper v3 baru ini dan menyatakan bahwa OpenAI berencana untuk mendukung versi terbaru model pengenalan ucapan otomatis mereka melalui API mereka dalam waktu dekat.
Open Source dan Ketersediaan Whisper v3
Whisper adalah open source dan dapat diakses melalui Hugging Face atau GitHub. Whisper v3 dapat digunakan untuk tujuan komersial dan tersedia di bawah lisensi MIT. Namun, OpenAI mencatat bahwa model ini mencapai akurasi yang lebih rendah pada bahasa dengan data pelatihan yang terbatas. Performa Whisper juga menurun ketika berhadapan dengan aksen dan dialek yang berbeda dari bahasa tertentu.