Model AI Sky-T1: Inovasi Terjangkau untuk Pelatihan AI
Researchers open source Sky-T1, a ‘reasoning’ AI model that can be trained for less than $450 https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/

By Sang Ruh 13 Jan 2025, 10:06:23 WIB | 👁 16 Programming
Model AI Sky-T1: Inovasi Terjangkau untuk Pelatihan AI

Keterangan Gambar : Model AI Sky-T1: Ino


Berikut adalah terjemahan artikel tersebut dalam bahasa Indonesia:

Model pemikiran yang dikatakan "pemikiran" AI semakin mudah dan murah untuk dikembangkan.

Hari Jumat, tim peneliti berbasis di Laboratorium Komputasi Sky dari Universitas California, Berkeley, merilis Sky-T1-32B-Preview, model pemikiran yang kompetitif dengan versi sebelumnya dari OpenAI's o1 pada beberapa benchmark penting. Sky-T1 tampaknya adalah model pemikiran pertama yang benar-benar terbuka sumber, karena dapat diulang dari awal; tim merilis dataset yang digunakan untuk melatihnya serta kode pelatihan yang diperlukan.

"Remarkably, Sky-T1-32B-Preview di latih untuk kurang dari $450," tim menulis dalam postingan blog, "demonstrasi bahwa membangun kemampuan pemikiran tingkat tinggi secara efisien dan efisien tidak hanya mungkin, tetapi juga terjangkau."

$450 mungkin tidak terlalu murah. Namun, tidak lama yang lalu harga tagihan untuk melatih model dengan kemampuan yang serupa seringkali berkisar dari jutaan hingga milyaran dolar. Data pelatihan sintetik, atau data pelatihan yang dihasilkan oleh model lain, telah membantu menurunkan biaya. Palmyra X 004, model baru yang dirilis oleh perusahaan AI Writer, di latih hampir sepenuhnya menggunakan data pelatihan sintetik, dan dirilis dengan harga hanya $700.000.

Dengan demikian, model pemikiran memeriksa diri sendiri secara efektif, yang membantu menghindari beberapa kesalahan yang biasanya menghambat model. Model pemikiran membutuhkan waktu sedikit lebih lama - biasanya beberapa detik hingga menit - untuk mencapai solusi dibandingkan dengan model non-pemikiran biasa. Namun, mereka cenderung lebih stabil dalam bidang seperti fisika, ilmu pengetahuan, dan matematika.

Tim NovaSky menyatakan bahwa mereka menggunakan model pemikiran lain, Alibaba's QwQ-32B-Preview, untuk menghasilkan data pelatihan awal untuk Sky-T1, kemudian "mengatur" campuran data dan menggunakan OpenAI's GPT-4o-mini untuk mengrefaktur data menjadi format yang lebih kerja. Melatih Sky-T1 yang memiliki 32 miliar parameter membutuhkan sekitar 19 jam menggunakan rack 8 GPU Nvidia H100. (Parameter sekitar dengan kemampuan model untuk menyelesaikan masalah.)

Menurut tim NovaSky, Sky-T1 melakukan lebih baik dari versi awal preview dari o1 pada MATH500, koleksi tantangan matematika yang tingkatnya kompetitif. Model juga mengalahkan preview o1 pada set tantangan yang sulit dari LiveCodeBench, evaluasi kode. Namun, Sky-T1 tidak dapat mengalahkan preview o1 pada GPQA-Diamond, yang mengandung pertanyaan fisika, biologi, dan kimia yang diharapkan untuk dikuasai oleh mahasiswa doktoral.

Penting untuk diingat juga bahwa OpenAI's GA release o1 adalah model yang lebih kuat daripada versi preview o1, dan bahwa OpenAI diharapkan untuk merilis model yang lebih baik lagi, o3, dalam beberapa minggu ke depan.

Namun, tim NovaSky menyatakan bahwa Sky-T1 hanya menandai awal perjalanan mereka untuk mengembangkan model terbuka sumber dengan kemampuan pemikiran yang lebih maju.

"Kemudian, kita akan fokus pada mengembangkan model yang lebih efisien yang menjaga kemampuan pemikiran yang kuat dan mengembangkan teknik yang lebih maju untuk meningkatkan efisiensi dan akurasi model pada waktu pengujian," tim menulis dalam postingan blog. "Tunggu terus kami untuk membuat kemajuan pada inisiatif-inisiatif ini."

View all comments

Write a comment