- Sorotan Baru Terhadap Pariwisata dan Ekonomi Lokal di Tahun 2025 melalui Business Connect
- Bantuan Air Bersih Disalurkan untuk Mengatasi Kekeringan di Wilayah Lumajang
- Benturan Keras Terjadi di Tikungan Jatiroto, Sopir Alami Luka Akibat Tabrakan Truk
- Keroyokan Usai Pesta Miras di Lumajang Berujung Penangkapan Dua Pelaku
- Pengembangan Pembelajaran Biologi Kontekstual Berbasis STEM-PjBL di Lumajang
- Peningkatan Patroli di Wilayah Pronojiwo, Masyarakat Dihimbau Tetap Waspada
- Upaya Menjaga Kelancaran dan Keselamatan Lalu Lintas Dilakukan di Lumajang dengan Poros Pagi
- Perawatan Candi di Lumajang Ditingkatkan sebagai Upaya Pelestarian Sejarah
- Kecelakaan Melibatkan Minibus dan Dua Truk Terjadi di Banyuputih Kidul Lumajang, Satu Sopir Alami Luka Kaki
- Pendaftaran Calon Ketua DPD Golkar Lumajang Telah Dibuka
Organisasi Benchmarking AI Dikritik Karena Tunda Ungkapkan Pendanaan dari OpenAI
AI benchmarking organization criticized for waiting to disclose funding from OpenAI https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/

Keterangan Gambar : Organisasi Benchmark
Perusahaan yang mengembangkan standar matematika untuk AI tidak menyebarkan informasi bahwa perusahaan tersebut telah menerima dana dari OpenAI hingga beberapa bulan yang lalu, membuat beberapa orang di komunitas AI menuduh kecurangan.
Epoch AI, sebuah organisasi yang utamanya didanai oleh Open Philanthropy, sebuah lembaga penelitian dan pengelolaan dana, mengungkapkan pada tanggal 20 Desember bahwa OpenAI telah mendukung pembuatan FrontierMath. FrontierMath, sebuah ujian dengan masalah matematika tingkat ahli yang dirancang untuk menilai kemampuan AI, adalah salah satu standar yang digunakan oleh OpenAI untuk mempromosikan flagship AI, o3.
Pada postingan di forum LessWrong, seorang kontraktor untuk Epoch AI yang menggunakan nama pengguna "Meemi" menyatakan bahwa banyak kontributor pada standar FrontierMath tidak diberitahu tentang partisipasi OpenAI hingga informasi tersebut diberitakan secara umum.
"Komunikasi tentang ini telah tidak transparan," Meemi menulis. "Dalam pandangan saya, Epoch AI harus menyebarkan informasi tentang pendanaan OpenAI, dan kontraktor harus memiliki informasi yang transparan tentang kemungkinan pekerjaan mereka digunakan untuk meningkatkan kemampuan, ketika memutuskan untuk bekerja pada standar."
Pada media sosial, beberapa pengguna menunjukkan kekhawatiran bahwa kekeliruan ini dapat merusak reputasi FrontierMath sebagai standar yang objektif. Selain itu, OpenAI memiliki akses ke banyak masalah dan solusi dalam standar tersebut, sebuah fakta yang Epoch AI tidak menyebarkan sebelum tanggal 20 Desember, ketika o3 diumumkan.
Dalam respons pada postingan Meemi, Tamay Besiroglu, asisten direktur Epoch AI dan salah satu pendiri organisasi tersebut, menyatakan bahwa integritas FrontierMath tidak terganggu, tetapi mengakui bahwa Epoch AI "melakukan kesalahan" dalam tidak transparan.
"Kami terbatas dalam menyebarkan kerjasama hingga sekitar waktu o3 diluncurkan, dan di belakang ini kami harus ber Negotiasi lebih keras untuk kemampuan untuk transparan kepada kontributor standar," Besiroglu menulis. "Matematik kami layak untuk tahu siapa yang memiliki akses ke pekerjaan mereka. Meskipun kami terbatas dalam apa yang dapat kami katakan, kami harus membuat transparansi dengan kontributor kami menjadi tidak dapat diperdebatkan bagian dari kesepakatan kami dengan OpenAI."
Besiroglu menambahkan bahwa meskipun OpenAI memiliki akses ke FrontierMath, mereka memiliki "perjanjian verbal" dengan Epoch AI untuk tidak menggunakan set problem dalam pelatihan AI mereka. (Pelatihan AI pada FrontierMath adalah seperti belajar untuk ujian.) Epoch AI juga memiliki "set holdout" terpisah yang digunakan sebagai penjagaan tambahan untuk verifikasi independen hasil ujian FrontierMath.
"OpenAI telah mendukung sepenuhnya keputusan kami untuk menjaga set holdout yang terpisah," Besiroglu menulis.
Namun, mengerumuni, Epoch AI mathematician Ellot Glazer menulis di postingan di Reddit bahwa Epoch AI tidak dapat memverifikasi secara independen hasil o3 FrontierMath oleh OpenAI.
"Opini pribadi saya adalah bahwa skor OpenAI adalah legit (yaitu, mereka tidak melatih pada dataset), dan bahwa mereka tidak memiliki alasan untuk berbohong tentang prestasi benchmark internal mereka," Glazer menulis. "Namun, kami tidak dapat memverifikasi mereka sampai evaluasi kami independen selesai."
Saga ini adalah contoh lain dari tantangan dalam mengembangkan standar empiris untuk menilai AI - dan mendapatkan sumber daya yang diperlukan untuk pengembangan standar tanpa menciptakan kesan konflik kepentingan.