Google memperkenalkan Lumiere, model difusi teks ke video
Google unveils Lumiere, a text-to-video diffusion model https://dailyai.com/2024/01/google-unveils-lumiere-a-text-to-video-diffusion-model/

By Sang Ruh 24 Jan 2024, 20:01:16 WIB | 👁 229 Programming
Google memperkenalkan Lumiere, model difusi teks ke video

Keterangan Gambar : Google memperkenalka


Teks-to-video (TTV) atau teks-ke-video telah mencapai terobosan baru dengan Lumiere, model generasi video dari Google Research yang mengubah teks atau gambar menjadi video sangat realistis. Meskipun model seperti Midjourney atau DALL-E telah menghasilkan gambar diam yang luar biasa, namun TTV masih tertinggal dan kurang mengesankan.

Lumiere menghadirkan keunggulan baru dalam TTV dengan pendekatan baru yang mampu menciptakan video yang konsisten spasial dan temporal, serta pergerakan yang mulus. Model ini mampu menghasilkan video berdurasi 5 detik yang terdiri dari 80 frame pada 16 frame per detik.

Tidak hanya itu, Lumiere juga memungkinkan berbagai fungsionalitas generasi video, seperti mengubah teks menjadi video, mengubah gambar menjadi video, serta pembuatan video dengan gaya tertentu. Selain itu, model ini juga dapat menciptakan cinemagraphs, mengedit video sumber sesuai dengan teks stilistik, serta mengisi bagian yang kosong dalam video secara otomatis.

Lumiere menggunakan arsitektur Space-Time U-Net (STUNet) yang belajar untuk menurunkan sinyal secara spasial dan temporal serta memproses semua frame sekaligus, menghasilkan gerakan yang konsisten. Hasil dari penelitian ini mendapatkan respon positif dari pengguna yang menyatakan preferensi terhadap kualitas TTV Lumiere daripada model lainnya.

Meskipun hanya menghasilkan klip 5 detik, kesinambungan visual dan gerakan yang realistis membuat Lumiere unggul dari solusi TTV lainnya. Walaupun saat ini Lumiere belum dapat menangani transisi antar scene atau video multi-shot, namun ini lebih merupakan langkah awal dan kemungkinan fungsionalitas tersebut akan hadir di masa mendatang.

Namun, Google Research juga mencatat risiko penyalahgunaan teknologi ini untuk menciptakan konten palsu atau berbahaya. Oleh karena itu, mereka perlu menemukan cara untuk memberi watermark pada video mereka serta menghindari masalah hak cipta sebelum merilis teknologi Lumiere secara lebih luas.

Sumber: Google Research

Teks-to-video (TTV) atau teks-ke-video telah mencapai terobosan baru dengan Lumiere, model generasi video dari Google Research yang mengubah teks atau gambar menjadi video sangat realistis. Meskipun model seperti Midjourney atau DALL-E telah menghasilkan gambar diam yang luar biasa, namun TTV masih tertinggal dan kurang mengesankan.

Lumiere menghadirkan keunggulan baru dalam TTV dengan pendekatan baru yang mampu menciptakan video yang konsisten spasial dan temporal, serta pergerakan yang mulus. Model ini mampu menghasilkan video berdurasi 5 detik yang terdiri dari 80 frame pada 16 frame per detik.

Tidak hanya itu, Lumiere juga memungkinkan berbagai fungsionalitas generasi video, seperti mengubah teks menjadi video, mengubah gambar menjadi video, serta pembuatan video dengan gaya tertentu. Selain itu, model ini juga dapat menciptakan cinemagraphs, mengedit video sumber sesuai dengan teks stilistik, serta mengisi bagian yang kosong dalam video secara otomatis.

Lumiere menggunakan arsitektur Space-Time U-Net (STUNet) yang belajar untuk menurunkan sinyal secara spasial dan temporal serta memproses semua frame sekaligus, menghasilkan gerakan yang konsisten. Hasil dari penelitian ini mendapatkan respon positif dari pengguna yang menyatakan preferensi terhadap kualitas TTV Lumiere daripada model lainnya.

Meskipun hanya menghasilkan klip 5 detik, kesinambungan visual dan gerakan yang realistis membuat Lumiere unggul dari solusi TTV lainnya. Walaupun saat ini Lumiere belum dapat menangani transisi antar scene atau video multi-shot, namun ini lebih merupakan langkah awal dan kemungkinan fungsionalitas tersebut akan hadir di masa mendatang.

Namun, Google Research juga mencatat risiko penyalahgunaan teknologi ini untuk menciptakan konten palsu atau berbahaya. Oleh karena itu, mereka perlu menemukan cara untuk memberi watermark pada video mereka serta menghindari masalah hak cipta sebelum merilis teknologi Lumiere secara lebih luas.

Sumber: Google Research

View all comments

Write a comment