Daftar Isi
- Google Mengembangkan Model AI MobileDiffusion untuk Pembuatan Gambar di Ponsel
- MobileDiffusion vs. Tradisional: Transformasi Pembuatan Gambar AI di Perangkat Mobile
- MobileDiffusion: Menerobos Batas dengan Desain Difusi Laten yang Efektif
- Optimasi Arsitektur MobileDiffusion: Meninggalkan Tantangan Efisiensi dengan UViT dan VAE
Google Mengembangkan Model AI MobileDiffusion untuk Pembuatan Gambar di Ponsel
Google telah mengembangkan model kecil AI teks-ke-gambar yang dapat menghasilkan gambar berkualitas tinggi di perangkat mobile. Model ini dinamakan MobileDiffusion dan mampu menciptakan gambar 512×512 dengan kecepatan tinggi tanpa memproses di cloud karena berada di perangkat itu sendiri. Tim peneliti Google telah menguji model ini pada perangkat iOS dan Android dan mengklaim bahwa model ini dapat berjalan dalam setengah detik.
MobileDiffusion vs. Tradisional: Transformasi Pembuatan Gambar AI di Perangkat Mobile
Model pembuatan gambar tradisional seperti Stable Diffusion dan DALL-E membutuhkan desktop atau server yang kuat untuk berjalan, sehingga tidak mungkin dijalankan di ponsel. Namun, MobileDiffusion dirancang khusus untuk perangkat mobile dengan 520 juta parameter, memungkinkan penggunaan pembuatan gambar AI yang lebih luas di perangkat konsumen. Dengan efisiensi superior dalam hal latensi dan ukuran, MobileDiffusion memiliki potensi menjadi pilihan yang sangat ramah untuk implementasi di perangkat mobile karena kemampuannya untuk memungkinkan pengalaman pembuatan gambar yang cepat saat mengetik teks.
MobileDiffusion: Menerobos Batas dengan Desain Difusi Laten yang Efektif
MobileDiffusion mengikuti prinsip desain model difusi laten dengan menggunakan pengkode teks, difusi UNet, dan dekoder gambar. Model ini dirancang untuk fokus pada optimasi arsitektur model dasar dan teknik sampling untuk mencapai kecepatan inferensi dalam hitungan detik. Arsitektur dasarnya secara efektif mengurangi langkah-langkah sampling untuk mempercepat waktu pembuatan gambar. Model difusi teks-ke-gambar tradisional menggunakan blok transformer seperti yang ditemukan dalam arsitektur UNet Stable Diffusion.
Optimasi Arsitektur MobileDiffusion: Meninggalkan Tantangan Efisiensi dengan UViT dan VAE
Di satu sisi para peneliti Google berpendapat bahwa blok-blok berlapis ini menimbulkan tantangan efisiensi yang signifikan, mengingat biaya komputasi dari attention. Sebagai solusinya, mereka mengadopsi ide arsitektur UViT yang dirancang oleh Google, yang menempatkan lebih banyak blok transformer di bottleneck UNet. Pilihan desain ini didorong oleh fakta bahwa komputasi attention membutuhkan sumber daya yang lebih sedikit di bottleneck karena tingkatnya yang lebih rendah. Selain itu, para peneliti juga mengoptimalkan dekoder gambar MobileDiffusion dengan menggunakan teknik variational autoencoder (VAE) untuk mengkodekan gambar RGB menjadi variabel laten dengan 8 saluran yang lebih kecil. Dekoder yang lebih ringan ini mengurangi latensi hampir 50% sambil meningkatkan kualitas output gambar model.
Dengan model yang kompak seperti MobileDiffusion, pengguna dapat menghasilkan gambar berkualitas tinggi dan beragam untuk berbagai domain. Model ini membuka akses yang lebih luas untuk pembuatan gambar AI di perangkat mobile, memberikan pengalaman pembuatan gambar yang cepat dan efisien saat mengetik teks.