Ujian Terakhir Kemanusiaan: Tantangan untuk AI
Humanity’s Last Exam wants your tough questions to stump AI https://dailyai.com/2024/09/humanitys-last-exam-wants-your-tough-questions-to-stump-ai/

By Sang Ruh 17 Sep 2024, 16:56:06 WIB | 👁 28 Programming
Ujian Terakhir Kemanusiaan: Tantangan untuk AI

Keterangan Gambar : Ujian Terakhir Keman


Proyek Ujian Terakhir Kemanusiaan: Mengukur Kemampuan AI yang Maju

Benchmark saat ini kesulitan untuk mengikuti perkembangan kemampuan model AI yang semakin canggih. Proyek Ujian Terakhir Kemanusiaan, yang merupakan kolaborasi antara Center for AI Safety (CAIS) dan perusahaan data AI Scale AI, bertujuan untuk mengatasi masalah ini. Proyek ini ingin mengukur seberapa dekat kita dengan pencapaian sistem AI setara ahli, sesuatu yang tidak dapat dilakukan oleh benchmark yang ada saat ini.

Benchmark MMLU (Massive Multitask Language Understanding) yang dikembangkan oleh OpenAI dan CAIS pada tahun 2021 menunjukkan bahwa saat itu, sistem AI hanya tampil sebaik hasil acak. Namun, performa mengesankan dari model OpenAI, o1, telah "menghancurkan" banyak benchmark penalaran yang populer, menurut Dan Hendrycks, direktur eksekutif CAIS.

Setelah model AI mencapai skor 100% pada MMLU, pertanyaannya adalah, bagaimana kita akan mengukurnya? CAIS menyatakan bahwa "ujian yang ada sekarang menjadi terlalu mudah dan kami tidak lagi dapat melacak perkembangan AI dengan baik, atau seberapa jauh mereka dari menjadi setara ahli."

Dengan lonjakan skor benchmark yang ditambahkan oleh o1 ke angka impresif GPT-4o, tidak lama lagi model AI akan mampu menguasai MMLU.

Proyek Ujian Terakhir Kemanusiaan mengajak masyarakat untuk mengajukan pertanyaan yang benar-benar mengejutkan jika dijawab dengan benar oleh model AI. Mereka mencari pertanyaan tingkat PhD, bukan pertanyaan sederhana seperti "berapa banyak huruf R dalam kata Strawberry" yang sering membuat model kesulitan.

Scale menjelaskan bahwa "seiring dengan semakin mudahnya ujian yang ada, kita kehilangan kemampuan untuk membedakan antara sistem AI yang dapat lulus ujian sarjana dan yang benar-benar dapat berkontribusi pada penelitian dan pemecahan masalah di garis depan."

Jika Anda memiliki pertanyaan orisinal yang dapat mengecoh model AI canggih, Anda bisa mendapatkan nama Anda sebagai co-author dalam makalah proyek ini dan berbagi dalam total hadiah sebesar $500,000 yang akan diberikan untuk pertanyaan terbaik.

Proyek ini memiliki beberapa batasan menarik terkait jenis pertanyaan yang dapat diajukan. Mereka tidak menginginkan pertanyaan yang berkaitan dengan senjata kimia, biologi, radiologis, nuklir, atau siber yang digunakan untuk menyerang infrastruktur kritis.

Jika Anda merasa memiliki pertanyaan yang memenuhi syarat, Anda dapat mengajukannya di sini.

View all comments

Write a comment