- Penangkapan Lima Tersangka Kasus Ganja oleh Satresnarkoba di Lumajang
- Proyek Pembangunan Pasar Agropolitan di Gerbang Wisata Senduro Lumajang Hampir Rampung
- Pelantikan Resmi Indah-Yudha, Janji Mewujudkan Pemerintahan Lumajang Tanpa Korupsi
- Pengaktifan Kembali KUD di Lumajang untuk Memperkuat Perekonomian Desa
- Persiapan Mencetak Generasi Emas oleh Lembaga Parenting di Lumajang
- Aliansi BEM se-Lumajang Protes Program Efisiensi yang Dinilai Tidak Memenuhi Kebutuhan Dasar di DPRD
- Begal Mengintai di Klakah Lumajang Saat Hujan Turun
- Cek Kesehatan Gratis Dimulai di Lumajang, Simak Keuntungannya
- Dukungan Terhadap Penerapan P3K Paruh Waktu di Pemkab Lumajang dari Komisi A DPRD
- Wisuda Akbar Seribu Santri Madin Digelar di Pendopo Arya Wiraraja oleh FKDT Lumajang
Apple Perkenalkan MM1, Keluarga Pertama dari LLM Multimodal
Apple reveals MM1, its first family of multimodal LLMs https://dailyai.com/2024/03/apple-reveals-mm1-its-first-family-of-multimodal-llms/

Keterangan Gambar : Apple Perkenalkan MM
Apple belum secara resmi merilis model kecerdasan buatan (AI), namun sebuah paper penelitian baru memberikan wawasan tentang kemajuan perusahaan dalam mengembangkan model dengan kemampuan multimodal terkini.
Paper tersebut, berjudul "MM1: Metode, Analisis & Wawasan dari Pra-pelatihan LLM Multimodal", memperkenalkan keluarga MLLM Apple yang disebut MM1.
MM1 menunjukkan kemampuan yang mengesankan dalam caption gambar, menjawab pertanyaan visual (VQA), dan inferensi bahasa alami. Para peneliti menjelaskan bahwa pemilihan pasangan gambar-caption yang hati-hati memungkinkan mereka mencapai hasil yang superior, terutama dalam skenario pembelajaran few-shot.
Yang membedakan MM1 dari MLLM lainnya adalah kemampuannya yang superior dalam mengikuti instruksi di sepanjang beberapa gambar dan merasionalkan pada adegan-adegan kompleks yang disajikan.
Model-model MM1 mengandung hingga 30 miliar parameter, tiga kali lipat dari GPT-4V, komponen yang memberikan kemampuan visual pada GPT-4 milik OpenAI.
Berikut adalah beberapa contoh kemampuan VQA MM1.
MM1 menjalani pra-pelatihan multimodal dalam skala besar pada "dataset 500 juta dokumen gambar-teks yang diselingi, berisi 1 miliar gambar dan 500 miliar token teks."
Skala dan keragaman pra-pelatihan memungkinkan MM1 melakukan prediksi dalam konteks yang mengesankan dan mengikuti format kustom dengan sedikit contoh few-shot. Berikut adalah contoh bagaimana MM1 belajar output yang diinginkan dan format dari hanya 3 contoh.
MM1 dapat menghitung objek, melakukan OCR pada area tertentu dari gambar, menerapkan penalaran berdasarkan akal sehat pada objek, dan melakukan fungsi matematika dasar.
Membuat model AI yang dapat "melihat" dan merasionalkan memerlukan penghubung visi-bahasa yang menerjemahkan gambar dan bahasa ke dalam representasi bersatu yang dapat digunakan model untuk pemrosesan lebih lanjut.
Para peneliti menemukan bahwa desain penghubung visi-bahasa kurang berpengaruh dalam meningkatkan kinerja MM1. Menariknya, resolusi gambar dan jumlah token gambar memiliki dampak terbesar.
Menarik melihat seberapa terbuka Apple dalam berbagi penelitiannya dengan komunitas AI yang lebih luas. Para peneliti menyatakan bahwa "dalam paper ini, kami mendokumentasikan proses pembangunan MLLM dan berusaha merumuskan pelajaran desain, yang kami harap bermanfaat bagi komunitas."
Hasil yang dipublikasikan kemungkinan akan memengaruhi arah yang diambil pengembang MMLM lainnya mengenai arsitektur dan pilihan data pra-pelatihan.
Bagaimana model-model MM1 akan diimplementasikan dalam produk-produk Apple masih harus dilihat. Contoh-contoh yang dipublikasikan tentang kemampuan MM1 mengisyaratkan bahwa Siri akan menjadi lebih cerdas ketika dia akhirnya belajar untuk melihat.