Meta Memperlihatkan Revolusi Audio AI Tetapi Tidak Akan Merilisnya

June 23, 2023 | by Luna

Meta mengungkapkan Voicebox, model AI yang dapat menghasilkan suara dalam enam bahasa hanya dari sampel 2 detik

Meta, perusahaan induk Facebook, telah mengungkapkan Voicebox, model AI yang dapat menghasilkan suara dalam berbagai gaya menggunakan sampel audio yang hanya berdurasi 2 detik. Dengan pendekatan baru, Voicebox belajar dari audio mentah dan transkripsi yang menyertainya. Model AI generatif sebelumnya memerlukan pelatihan khusus untuk setiap tugas menggunakan data pelatihan yang disiapkan dengan hati-hati. Voicebox dapat mencocokkan gaya untuk generasi teks-ke-suara dan juga dapat digunakan untuk mengedit audio seperti menghilangkan latar belakang suara anjing yang menggonggong atau klakson mobil yang jauh. Proses pengeditan bekerja dengan merekonstruksi sebagian pidato yang terputus oleh kebisingan tanpa harus merekam ulang seluruh pidato. Model ini juga multibahasa dan dapat menghasilkan ucapan dalam enam bahasa: Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugis.

CEO Meta menunjukkan Model ini

CEO Meta, Mark Zuckerberg, memperlihatkan model ini dalam video di blog penelitian perusahaan, mengatakan timnya percaya bahwa Voicebox adalah model generatif ucapan yang paling serbaguna. “Ini masih merupakan proyek penelitian, tetapi saya pikir kami akan membangun banyak hal menarik dengan alat seperti ini,” kata Zuckerberg. Voicebox dirancang untuk menjadi serbaguna atau digunakan untuk berbagai tugas, sesuatu yang Meta telah dorong untuk model AI-nya sehingga dapat diterapkan pada berbagai kasus penggunaan dan aplikasi. Meta mengatakan bahwa di masa depan, model generatif serbaguna seperti Voicebox dapat memberikan suara yang terdengar alami kepada asisten virtual dan karakter non-pemain dalam game. Mereka dapat memungkinkan orang dengan gangguan penglihatan untuk mendengar pesan tertulis dari teman yang dibacakan oleh AI chatbot dengan suara mereka sendiri, memberikan pembuat alat baru untuk dengan mudah membuat dan mengedit trek audio untuk video, dan banyak lagi, kata tim peneliti di baliknya.

Meta Tidak Akan merilis Model ini ke Publik

Namun, Meta tidak membuat model ini publik karena takut disalahgunakan. “Meskipun kami percaya penting untuk terbuka dengan komunitas AI dan membagikan penelitian kami untuk memajukan keadaan seni dalam AI, juga perlu menemukan keseimbangan yang tepat antara keterbukaan dan tanggung jawab,” kata Meta. Alih-alih mempublikasikan kode atau model itu sendiri, Meta telah membagikan sampel audio dan makalah penelitian yang menjelaskan pendekatan dan hasilnya. Pada awal bulan ini, para anggota parlemen mengirim surat kepada Zuckerberg yang mengatakan mereka khawatir tentang rilis LLaMA Meta karena kekuatan model bahasa besar ini. “Kami menulis untuk meminta informasi tentang bagaimana perusahaan Anda menilai risiko merilis LLaMA, langkah apa yang diambil untuk mencegah penyalahgunaan model, dan bagaimana Anda memperbarui kebijakan dan praktik Anda berdasarkan ketersediaannya yang tidak terbatas,” tulis Sen. Richard Blumenthal (D-CT), ketua Subkomite Senat tentang Privasi, Teknologi, dan Hukum, dan Josh Hawley (R-MO), anggota peringkat. Mereka menambahkan bahwa bahkan dalam waktu singkat alat AI omnichannel generatif tersedia untuk publik, mereka telah digunakan dengan sangat berbahaya, risiko yang semakin diperparah dengan sumber terbuka.

Recommended Article