- Apel Siaga Bencana Hidrometeorologi 2025 Digelar di Lumajang
- Penetapan Calon Terpilih Bupati dan Wakil Bupati Lumajang oleh KPU Pasca Pilkada 2024
- Rapat Pleno Terbuka KPU untuk Menetapkan Pasangan Calon Bupati dan Wakil Bupati Lumajang
- Peningkatan Patroli Kecelakaan Lalu Lintas oleh Satlantas Polres Lumajang
- Langkah Pemerintah untuk Mengatasi Masalah Ternak yang Terjangkit Penyakit Menular Kepada Manusia (PMK) Ditetapkan di Daerah Terpilih
- Bupati Lumajang Tetapkan Anggaran 3,4 Miliar untuk Pembangunan Infrastruktur Parkir di Pusat Kota
- Pantai di Daerah Pesisir Menjadi Tempat Berburu Buaya
- Lumajang Mengadakan Penerapan Sistem Pelaporan Online untuk Meningkatkan Pengelolaan Perhubungan dan Infrastruktur
- Bupati Lumajang Mengunjungi Pemandian Alam yang Diperbaiki untuk Memastikan Kualitas Layanan
- Kebakaran Mobil Terjadi di SPBU Sumberjati Lumajang, Identitas Pemilik Terungkap
Apple Perkenalkan MM1, Keluarga Pertama dari LLM Multimodal
Apple reveals MM1, its first family of multimodal LLMs https://dailyai.com/2024/03/apple-reveals-mm1-its-first-family-of-multimodal-llms/
Keterangan Gambar : Apple Perkenalkan MM
Apple belum secara resmi merilis model kecerdasan buatan (AI), namun sebuah paper penelitian baru memberikan wawasan tentang kemajuan perusahaan dalam mengembangkan model dengan kemampuan multimodal terkini.
Paper tersebut, berjudul "MM1: Metode, Analisis & Wawasan dari Pra-pelatihan LLM Multimodal", memperkenalkan keluarga MLLM Apple yang disebut MM1.
MM1 menunjukkan kemampuan yang mengesankan dalam caption gambar, menjawab pertanyaan visual (VQA), dan inferensi bahasa alami. Para peneliti menjelaskan bahwa pemilihan pasangan gambar-caption yang hati-hati memungkinkan mereka mencapai hasil yang superior, terutama dalam skenario pembelajaran few-shot.
Yang membedakan MM1 dari MLLM lainnya adalah kemampuannya yang superior dalam mengikuti instruksi di sepanjang beberapa gambar dan merasionalkan pada adegan-adegan kompleks yang disajikan.
Model-model MM1 mengandung hingga 30 miliar parameter, tiga kali lipat dari GPT-4V, komponen yang memberikan kemampuan visual pada GPT-4 milik OpenAI.
Berikut adalah beberapa contoh kemampuan VQA MM1.
MM1 menjalani pra-pelatihan multimodal dalam skala besar pada "dataset 500 juta dokumen gambar-teks yang diselingi, berisi 1 miliar gambar dan 500 miliar token teks."
Skala dan keragaman pra-pelatihan memungkinkan MM1 melakukan prediksi dalam konteks yang mengesankan dan mengikuti format kustom dengan sedikit contoh few-shot. Berikut adalah contoh bagaimana MM1 belajar output yang diinginkan dan format dari hanya 3 contoh.
MM1 dapat menghitung objek, melakukan OCR pada area tertentu dari gambar, menerapkan penalaran berdasarkan akal sehat pada objek, dan melakukan fungsi matematika dasar.
Membuat model AI yang dapat "melihat" dan merasionalkan memerlukan penghubung visi-bahasa yang menerjemahkan gambar dan bahasa ke dalam representasi bersatu yang dapat digunakan model untuk pemrosesan lebih lanjut.
Para peneliti menemukan bahwa desain penghubung visi-bahasa kurang berpengaruh dalam meningkatkan kinerja MM1. Menariknya, resolusi gambar dan jumlah token gambar memiliki dampak terbesar.
Menarik melihat seberapa terbuka Apple dalam berbagi penelitiannya dengan komunitas AI yang lebih luas. Para peneliti menyatakan bahwa "dalam paper ini, kami mendokumentasikan proses pembangunan MLLM dan berusaha merumuskan pelajaran desain, yang kami harap bermanfaat bagi komunitas."
Hasil yang dipublikasikan kemungkinan akan memengaruhi arah yang diambil pengembang MMLM lainnya mengenai arsitektur dan pilihan data pra-pelatihan.
Bagaimana model-model MM1 akan diimplementasikan dalam produk-produk Apple masih harus dilihat. Contoh-contoh yang dipublikasikan tentang kemampuan MM1 mengisyaratkan bahwa Siri akan menjadi lebih cerdas ketika dia akhirnya belajar untuk melihat.