- PT KAI dan Dishub Lumajang Tutup Perlintasan Kereta Api Liar
- 26 Ribu Warga Telah Berkunjung dan Manfaatkan Pelayanan di Mal Pelayanan Publik Lumajang
- Diskominfo Ajak Warga Selektif Terima Informasi Jelang Pilkada Lumajang 2024
- DPRD Lumajang Siap Support Peningkatan Kapasitas dan Profesionalitas Wartawan
- Penataan Kawasan Pura Mandhara Giri Semeru Agung Bisa Tingkatkan Ekonomi Warga Sekitar
- Kawasan Pura Madhara Giri Semeru Agung Lumajang Akan Ditata Berkonsep Pembangunan Berkelanjutan
- Ponpes Darun Najah Lumajang Masuk 3 Besar Lomba Implementasi Pesantren Sehat Jatim
- Ini Kronologi Kecelakaan Beruntun di Jatiroto Lumajang
- Kecelakaan Beruntun di Sukosari Lumajang Melibatkan Truk dan Bus Madjoe Berlian
- Bus Terlibat Kecelakaan Beruntun di Jatiroto Lumajang
Ujian Terakhir Kemanusiaan: Tantangan untuk AI
Humanity’s Last Exam wants your tough questions to stump AI https://dailyai.com/2024/09/humanitys-last-exam-wants-your-tough-questions-to-stump-ai/
Keterangan Gambar : Ujian Terakhir Keman
Proyek Ujian Terakhir Kemanusiaan: Mengukur Kemampuan AI yang Maju
Benchmark saat ini kesulitan untuk mengikuti perkembangan kemampuan model AI yang semakin canggih. Proyek Ujian Terakhir Kemanusiaan, yang merupakan kolaborasi antara Center for AI Safety (CAIS) dan perusahaan data AI Scale AI, bertujuan untuk mengatasi masalah ini. Proyek ini ingin mengukur seberapa dekat kita dengan pencapaian sistem AI setara ahli, sesuatu yang tidak dapat dilakukan oleh benchmark yang ada saat ini.
Benchmark MMLU (Massive Multitask Language Understanding) yang dikembangkan oleh OpenAI dan CAIS pada tahun 2021 menunjukkan bahwa saat itu, sistem AI hanya tampil sebaik hasil acak. Namun, performa mengesankan dari model OpenAI, o1, telah "menghancurkan" banyak benchmark penalaran yang populer, menurut Dan Hendrycks, direktur eksekutif CAIS.
Setelah model AI mencapai skor 100% pada MMLU, pertanyaannya adalah, bagaimana kita akan mengukurnya? CAIS menyatakan bahwa "ujian yang ada sekarang menjadi terlalu mudah dan kami tidak lagi dapat melacak perkembangan AI dengan baik, atau seberapa jauh mereka dari menjadi setara ahli."
Dengan lonjakan skor benchmark yang ditambahkan oleh o1 ke angka impresif GPT-4o, tidak lama lagi model AI akan mampu menguasai MMLU.
Proyek Ujian Terakhir Kemanusiaan mengajak masyarakat untuk mengajukan pertanyaan yang benar-benar mengejutkan jika dijawab dengan benar oleh model AI. Mereka mencari pertanyaan tingkat PhD, bukan pertanyaan sederhana seperti "berapa banyak huruf R dalam kata Strawberry" yang sering membuat model kesulitan.
Scale menjelaskan bahwa "seiring dengan semakin mudahnya ujian yang ada, kita kehilangan kemampuan untuk membedakan antara sistem AI yang dapat lulus ujian sarjana dan yang benar-benar dapat berkontribusi pada penelitian dan pemecahan masalah di garis depan."
Jika Anda memiliki pertanyaan orisinal yang dapat mengecoh model AI canggih, Anda bisa mendapatkan nama Anda sebagai co-author dalam makalah proyek ini dan berbagi dalam total hadiah sebesar $500,000 yang akan diberikan untuk pertanyaan terbaik.
Proyek ini memiliki beberapa batasan menarik terkait jenis pertanyaan yang dapat diajukan. Mereka tidak menginginkan pertanyaan yang berkaitan dengan senjata kimia, biologi, radiologis, nuklir, atau siber yang digunakan untuk menyerang infrastruktur kritis.
Jika Anda merasa memiliki pertanyaan yang memenuhi syarat, Anda dapat mengajukannya di sini.