Elon Musk Setuju Data Pelatihan AI Telah Habis
Elon Musk agrees that we’ve exhausted AI training data https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/

By Sang Ruh 13 Jan 2025, 11:06:24 WIB | 👁 1 Programming
Elon Musk Setuju Data Pelatihan AI Telah Habis

Keterangan Gambar : Elon Musk Setuju Dat


AI yang Lebih Baik: Elon Musk dan Teman-temannya Mencari Solusi untuk Data yang Habis

Elon Musk, pemilik perusahaan AI xAI, setuju dengan ahli lain di bidang AI bahwa tidak ada lagi banyak data nyata yang dapat digunakan untuk melatih model AI. Menurut Musk, "Kami telah menghabiskan sebagian besar pengetahuan manusia dalam melatih AI... hal ini terjadi sekitar setahun yang lalu."

Musk mengulangi tema yang dibahas oleh mantan kepala ilmuwan OpenAI, Ilya Sutskever, di konferensi NeurIPS, konferensi belajar mesin. Sutskever, yang mengatakan bahwa industri AI telah mencapai "puncak data", menyatakan bahwa kekurangan data akan memaksa perubahan dalam cara model diembangkan.

Musk menyarankan bahwa data sintetis, yaitu data yang dihasilkan oleh model AI sendiri, adalah jalan terbaik untuk mengisi kekurangan data nyata. "Satu-satunya cara untuk mengisi kekurangan data nyata adalah dengan data sintetis, di mana AI menciptakan data pelatihan sendiri," katanya. "Dengan data sintetis, AI akan seperti mengajar dirinya sendiri dan melalui proses belajar sendiri."

Perusahaan besar seperti Microsoft, Meta, OpenAI, dan Anthropic sudah menggunakan data sintetis untuk melatih model AI mereka. Gartner menilai bahwa 60% dari data yang digunakan untuk proyek AI dan analisis pada tahun 2024 adalah data sintetis.

Microsoft's Phi-4, yang dibuka sumber code pada hari Rabu, dididik menggunakan data sintetis bersama dengan data nyata. Google's Gemma juga dididik menggunakan data sintetis. Anthropic menggunakan beberapa data sintetis untuk mengembangkan salah satu sistem paling performantnya, Claude 3.5 Sonnet. Dan Meta fine-tuning model Llama terbaru mereka menggunakan data yang dihasilkan oleh AI.

Melatih model dengan data sintetis memiliki kelebihan, seperti penghematan biaya. Startup AI, Writer, mengklaim bahwa model Palmyra X 004 mereka, yang dikembangkan menggunakan sumber data hampir sepenuhnya sintetis, hanya menghabiskan $700.000 untuk dikembangkan - dibandingkan dengan perkiraan $4,6 juta untuk model OpenAI yang serupa.

Namun, ada juga kekurangan. Penelitian menunjukkan bahwa data sintetis dapat menyebabkan model "pembekuan", di mana model menjadi kurang "kreatif" dan lebih "biased" dalam outputnya, akhirnya mengorbankan fungsi model. Karena model menciptakan data sintetis, jika data yang digunakan untuk melatih model tersebut memiliki kekurangan dan kelemahan, output model akan sama-sama terkena dampak.

Sumber:

  • Elon Musk: "Kami telah menghabiskan sebagian besar pengetahuan manusia dalam melatih AI"
  • Ilya Sutskever: "Industri AI telah mencapai 'puncak data'"
  • Gartner: 60% dari data yang digunakan untuk proyek AI dan analisis pada tahun 2024 adalah data sintetis.
View all comments

Write a comment