Riset Universitas New York Mengembangkan AI yang Melihat Dunia Melalui Mata Anak
New York University researchers build AI that see’s through a child’s eyes https://dailyai.com/2024/02/new-york-university-researchers-build-ai-that-sees-through-a-childs-eyes/

By Sang Ruh 03 Feb 2024, 03:26:46 WIB | 👁 152 Programming
Riset Universitas New York Mengembangkan AI yang Melihat Dunia Melalui Mata Anak

Keterangan Gambar : Riset Universitas Ne


Peneliti dari Universitas New York mengambil inspirasi dari proses pembelajaran anak-anak untuk melatih sistem kecerdasan buatan (AI). Tim tersebut menggunakan sekitar 60 jam rekaman video orang pertama dari kamera yang dipasang di kepala anak-anak berusia 6 bulan hingga 2 tahun untuk mereplikasi perspektif seorang anak dalam model AI mereka. Inti dari penelitian baru ini terletak pada pemanfaatan pembelajaran mandiri (self-supervised learning/SSL), sebuah metode di mana AI mengajari dirinya sendiri dengan mengidentifikasi pola dan struktur dalam data tanpa memerlukan label eksplisit.

Peneliti melatih model AI mereka menggunakan kumpulan data video untuk melihat apakah mereka dapat memahami konsep tindakan dan perubahan dengan menganalisis informasi temporal atau berkaitan dengan waktu dalam video seperti yang dilakukan anak-anak. Metode ini, yang dijelaskan dalam jurnal Science, memungkinkan AI untuk belajar dari lingkungannya tanpa terlalu bergantung pada data berlabel, yang merupakan kunci desain studi ini. Ini mencerminkan bagaimana anak-anak belajar dengan menyerap sejumlah besar informasi dari lingkungan mereka, secara bertahap memahami dunia di sekitar mereka.

Penulis studi, Emri Orhan, dalam sebuah blog, menganjurkan fokus yang lebih besar pada pembelajaran mandiri dalam penelitian AI, yang menurutnya sangat penting untuk memahami proses pembelajaran kompleks. Minat pada metode pembelajaran mesin baru yang 'ringan' semakin meningkat. Salah satunya adalah model monolitik kolosal seperti GPT-3 dan GPT-4 yang memiliki tuntutan daya yang sangat besar yang tidak mudah dipenuhi. Selain itu, menciptakan sistem AI yang terinspirasi dari biologi adalah kunci untuk merancang model atau robot yang secara autentik 'berpikir' dan 'berperilaku' seperti kita.

Salah satu pertanyaan utama yang dituju oleh studi ini adalah apakah AI memerlukan bias atau 'jalan pintas' bawaan untuk belajar secara efektif atau apakah ia dapat mengembangkan pemahaman dunia melalui algoritma pembelajaran umum, mirip dengan cara seorang anak melakukannya.

Hasilnya menarik. Meskipun video hanya mencakup sekitar 1% dari waktu terjaga anak, sistem AI dapat mempelajari sejumlah besar kata dan konsep, menunjukkan efisiensi pembelajaran dari data terbatas namun terarah.

Kinerja pengenalan tindakan: Model AI yang dilatih pada kumpulan data SAYCam sangat efektif dalam mengenali tindakan dari video. Ketika diuji pada tugas pengenalan tindakan yang halus seperti Kinetics-700 dan Something-Something-V2 (SSV2), model tersebut menunjukkan kinerja yang mengesankan, bahkan dengan hanya sedikit contoh berlabel untuk pelatihan.

Perbandingan dengan kumpulan data Kinetics-700: Model yang dilatih dengan data SAYCam dibandingkan dengan model yang dilatih dengan Kinetics-700, kumpulan data beragam klip pendek YouTube. Secara mencolok, model SAYCam menunjukkan kinerja yang kompetitif, menunjukkan bahwa data video yang berpusat pada anak-anak dan realistis dalam perkembangannya menyediakan lingkungan pembelajaran yang kaya bagi AI, mirip atau bahkan lebih baik dari konten yang beragam yang ditemukan di YouTube.

Keterampilan interpolasi video: Hasil yang menarik adalah kemampuan model untuk melakukan interpolasi video - memprediksi segmen yang hilang dalam urutan video. Hal ini menunjukkan pemahaman tentang dinamika temporal dan kontinuitas dalam adegan visual, mencerminkan cara manusia mempersepsikan dan memprediksi tindakan.

Representasi objek yang tangguh: Studi ini juga menemukan bahwa model yang dilatih dengan video mengembangkan representasi objek yang lebih tangguh daripada yang dilatih dengan gambar statis. Hal ini terbukti dalam tugas yang membutuhkan pengenalan objek dalam berbagai kondisi, menyoroti nilai informasi temporal dalam pembelajaran model yang lebih tangguh dan serbaguna.

Peningkatan skala data dan kinerja model: Penelitian ini mengeksplorasi bagaimana kinerja model meningkat dengan peningkatan data video dari kumpulan data SAYCam. Hal ini menunjukkan bahwa akses ke data yang lebih luas dan realistis akan meningkatkan kinerja model.

Wai Keen Vong, seorang ilmuwan peneliti di Pusat Ilmu Data NYU, membahas kebaruan pendekatan ini, menyatakan, "Kami menunjukkan, untuk pertama kalinya, bahwa jaringan saraf yang dilatih dengan input yang realistis dari perkembangan seorang anak dapat belajar untuk mengaitkan kata-kata dengan pasangannya secara visual."

Menyentuh masalah yang dihadapi oleh model AI generatif modern, Vong mengatakan, "Sistem AI terkini dilatih menggunakan jumlah data yang sangat besar (seringkali miliaran/triliun kata), namun manusia berhasil belajar dan menggunakan bahasa dengan jauh lebih sedikit data (ratusan juta kata), sehingga hubungan antara kemajuan ini dalam pembelajaran mesin dengan akuisisi bahasa manusia tidak jelas."

Vong juga mengakui keterbatasan studi, mencatat, "Salah satu catatan adalah bahwa input bahasa ke model adalah teks, bukan sinyal ucapan yang mendasarinya."

Studi ini menantang model pelatihan AI tradisional dan berkontribusi pada diskusi yang sedang berlangsung tentang cara paling efektif untuk meniru pembelajaran biologis, sebuah subjek yang akan semakin menarik minat seiring dengan model AI kolosal mulai menunjukkan keterbatasan untuk masa depan.

View all comments

Write a comment