- Apel Siaga Bencana Hidrometeorologi 2025 Digelar di Lumajang
- Penetapan Calon Terpilih Bupati dan Wakil Bupati Lumajang oleh KPU Pasca Pilkada 2024
- Rapat Pleno Terbuka KPU untuk Menetapkan Pasangan Calon Bupati dan Wakil Bupati Lumajang
- Peningkatan Patroli Kecelakaan Lalu Lintas oleh Satlantas Polres Lumajang
- Langkah Pemerintah untuk Mengatasi Masalah Ternak yang Terjangkit Penyakit Menular Kepada Manusia (PMK) Ditetapkan di Daerah Terpilih
- Bupati Lumajang Tetapkan Anggaran 3,4 Miliar untuk Pembangunan Infrastruktur Parkir di Pusat Kota
- Pantai di Daerah Pesisir Menjadi Tempat Berburu Buaya
- Lumajang Mengadakan Penerapan Sistem Pelaporan Online untuk Meningkatkan Pengelolaan Perhubungan dan Infrastruktur
- Bupati Lumajang Mengunjungi Pemandian Alam yang Diperbaiki untuk Memastikan Kualitas Layanan
- Kebakaran Mobil Terjadi di SPBU Sumberjati Lumajang, Identitas Pemilik Terungkap
Asisten suara K
Kyutai’s AI voice assistant beats OpenAI to public release https://dailyai.com/2024/07/kyutais-ai-voice-assistant-beats-openai-to-public-release/
Keterangan Gambar : Asisten suara K
Masih menunggu rilis asisten suara GPT-4o dari OpenAI, sebuah laboratorium riset AI nirlaba asal Prancis justru lebih cepat dengan merilis Moshi.
Moshi adalah asisten suara AI real-time yang didukung oleh model Helium 7B yang dikembangkan oleh Kyutai. Moshi dilatih menggunakan campuran data teks dan audio sintetis, serta disempurnakan dengan dialog sintetis untuk mengajarkannya berinteraksi.
Moshi dapat memahami dan mengekspresikan 70 emosi berbeda serta berbicara dengan berbagai gaya dan aksen. Demo latensi end-to-end 200 milidetik-nya sangat mengesankan. Dengan mendengarkan, berpikir, dan berbicara secara bersamaan, interaksi real-time-nya lancar tanpa jeda yang canggung.
Meskipun mungkin tidak terdengar seanggun Sky dari GPT-4o, Moshi merespons lebih cepat dan sudah tersedia secara publik. Moshi mendapatkan suaranya dari sampel audio yang diproduksi oleh seorang aktor suara yang disebut "Alice" oleh Kyutai tanpa memberikan detail lebih lanjut.
Cara Moshi menginterupsi dan merespons dengan jeda yang tidak terperhatikan membuat interaksi dengan model AI terasa sangat alami.
Helium 7B jauh lebih kecil dari GPT-4o namun ukurannya yang kecil memungkinkan untuk dijalankan pada perangkat konsumen atau di cloud menggunakan GPU berdaya rendah.
Selama demo, seorang insinyur Kyutai menggunakan MacBook Pro untuk menunjukkan bagaimana Moshi bisa berjalan di perangkat.
Pentingnya kompresi audio untuk membuat Moshi sekecil mungkin. Moshi menggunakan codec audio bernama Mimi yang mengompres audio 300 kali lebih kecil dari codec MP3. Mimi menangkap informasi akustik dan data semantik dalam audio.
Jika ingin mencoba berbicara dengan Moshi, Anda bisa mencobanya di sini: https://kyutai.org/
Penting untuk diingat bahwa Moshi adalah prototipe eksperimental dan dibuat dalam waktu hanya 6 bulan oleh tim 8 insinyur.
Versi web-nya agak glitchy namun mungkin karena server mereka sedang ramai dengan pengguna yang ingin mencobanya.
Kyutai mengatakan akan segera merilis model, codec, kode, dan bobot secara publik. Kita mungkin harus menunggu hingga saat itu untuk mendapatkan performa yang mirip dengan demo.
Meskipun agak bermasalah, demo-nya jujur dan menyegarkan dibandingkan dengan teaser fitur dari Big Tech yang tidak pernah dirilis.
Moshi adalah contoh bagus dari apa yang bisa dilakukan oleh tim kecil insinyur AI dan membuat kita bertanya-tanya mengapa kita masih menunggu GPT-4o untuk berbicara dengan kita.