Apple Perkenalkan MM1, Keluarga Pertama dari LLM Multimodal
Apple reveals MM1, its first family of multimodal LLMs https://dailyai.com/2024/03/apple-reveals-mm1-its-first-family-of-multimodal-llms/

By Sang Ruh 18 Mar 2024, 16:37:12 WIB | 👁 101 Programming
Apple Perkenalkan MM1, Keluarga Pertama dari LLM Multimodal

Keterangan Gambar : Apple Perkenalkan MM


Apple belum secara resmi merilis model kecerdasan buatan (AI), namun sebuah paper penelitian baru memberikan wawasan tentang kemajuan perusahaan dalam mengembangkan model dengan kemampuan multimodal terkini.

Paper tersebut, berjudul "MM1: Metode, Analisis & Wawasan dari Pra-pelatihan LLM Multimodal", memperkenalkan keluarga MLLM Apple yang disebut MM1.

MM1 menunjukkan kemampuan yang mengesankan dalam caption gambar, menjawab pertanyaan visual (VQA), dan inferensi bahasa alami. Para peneliti menjelaskan bahwa pemilihan pasangan gambar-caption yang hati-hati memungkinkan mereka mencapai hasil yang superior, terutama dalam skenario pembelajaran few-shot.

Yang membedakan MM1 dari MLLM lainnya adalah kemampuannya yang superior dalam mengikuti instruksi di sepanjang beberapa gambar dan merasionalkan pada adegan-adegan kompleks yang disajikan.

Model-model MM1 mengandung hingga 30 miliar parameter, tiga kali lipat dari GPT-4V, komponen yang memberikan kemampuan visual pada GPT-4 milik OpenAI.

Berikut adalah beberapa contoh kemampuan VQA MM1.

MM1 menjalani pra-pelatihan multimodal dalam skala besar pada "dataset 500 juta dokumen gambar-teks yang diselingi, berisi 1 miliar gambar dan 500 miliar token teks."

Skala dan keragaman pra-pelatihan memungkinkan MM1 melakukan prediksi dalam konteks yang mengesankan dan mengikuti format kustom dengan sedikit contoh few-shot. Berikut adalah contoh bagaimana MM1 belajar output yang diinginkan dan format dari hanya 3 contoh.

MM1 dapat menghitung objek, melakukan OCR pada area tertentu dari gambar, menerapkan penalaran berdasarkan akal sehat pada objek, dan melakukan fungsi matematika dasar.

Membuat model AI yang dapat "melihat" dan merasionalkan memerlukan penghubung visi-bahasa yang menerjemahkan gambar dan bahasa ke dalam representasi bersatu yang dapat digunakan model untuk pemrosesan lebih lanjut.

Para peneliti menemukan bahwa desain penghubung visi-bahasa kurang berpengaruh dalam meningkatkan kinerja MM1. Menariknya, resolusi gambar dan jumlah token gambar memiliki dampak terbesar.

Menarik melihat seberapa terbuka Apple dalam berbagi penelitiannya dengan komunitas AI yang lebih luas. Para peneliti menyatakan bahwa "dalam paper ini, kami mendokumentasikan proses pembangunan MLLM dan berusaha merumuskan pelajaran desain, yang kami harap bermanfaat bagi komunitas."

Hasil yang dipublikasikan kemungkinan akan memengaruhi arah yang diambil pengembang MMLM lainnya mengenai arsitektur dan pilihan data pra-pelatihan.

Bagaimana model-model MM1 akan diimplementasikan dalam produk-produk Apple masih harus dilihat. Contoh-contoh yang dipublikasikan tentang kemampuan MM1 mengisyaratkan bahwa Siri akan menjadi lebih cerdas ketika dia akhirnya belajar untuk melihat.

View all comments

Write a comment