Daftar Isi
Aplikasi AI Pengenalan Suara Berbasis Edge yang Revolusioner
Aplikasi pengenalan suara yang kuat pada perangkat IoT dengan sistem baru yang kecil dari Hugging Face. Insinyur AI dari platform AI open source Hugging Face telah menciptakan sistem pengenalan suara yang dirancang untuk bekerja di lingkungan dengan memori rendah.
Sistem ini hanya memiliki 166 juta parameter, tetapi enam kali lebih cepat daripada Whisper v2 dari OpenAI, meskipun ukurannya 49% lebih kecil. Sistem kecil ini merupakan versi penyulingan dari model Whisper. Dirancang untuk digunakan dalam implementasi di mana ruang dan daya pemrosesan terbatas.
Misalnya, dapat digunakan untuk menggerakkan kontrol suara pada perangkat IoT seperti pengontrol rumah pintar atau bahkan mobil dengan speaker pintar. Dengan ukurannya yang kecil, sistem ini bahkan dapat diintegrasikan ke dalam aplikasi seluler untuk pengenalan suara secara real-time, potensial untuk aplikasi terjemahan atau asisten yang diaktifkan suara.
Performa Tinggi dengan Decoder Baru: Teknologi Terbaru dari Tim AI Hugging Face
Tim Hugging Face telah bekerja pada versi penyulingan dari Whisper dari OpenAI untuk beberapa waktu. Versi terbaru ini menggunakan empat lapisan decoder, dibandingkan dengan dua sebelumnya. Sanchit Gandhi, seorang insinyur penelitian pembelajaran mesin di Hugging Face, mengatakan di X (Twitter) bahwa lapisan decoder tambahan membantu mempertahankan akurasi transkripsi model pada model yang sangat kecil.
Dalam hal kinerja, sistem ini mencapai skor yang lebih tinggi dalam lingkungan latensi yang lebih rendah dibandingkan dengan Whisper asli dan versi penyulingan lainnya. Namun, untuk lingkungan di mana lebih banyak memori tersedia, tim Hugging Face merekomendasikan penggunaan distil-base-v2 atau distil-large-v2 karena keduanya lebih cepat dan mencapai tingkat kesalahan kata (WER) yang lebih baik.
Ekspansi Bahasa: Pengenalan Suara Whisper Hugging Face untuk Berbagai Bahasa
Versi penyulingan dari Whisper yang dibuat oleh Hugging Face saat ini hanya tersedia untuk pengenalan suara dalam bahasa Inggris. Tim di balik sistem ini mengatakan bahwa mereka sedang bekerja untuk menerapkannya pada bahasa lain. Akses tersedia melalui Hugging Face. Tersedia di bawah lisensi MIT yang berarti cocok untuk tujuan komersial. Namun, pengguna diharuskan untuk mempertahankan hak cipta dan pemberitahuan izin dalam semua salinan perangkat lunak.
Hugging Face memperlihatkan model ini digunakan untuk mentranskripsi file audio pendek dan panjang. Ada juga contoh inferensi di sisi kanan halaman Hugging Face di mana Anda dapat mendengar kemampuan pengenalan suaranya dalam aksi.