Prestasi model AI: Apakah kemampuannya untuk bernalar atau hanya menghafal?
AI model performance: Is it reasoning or simply reciting? https://dailyai.com/2024/07/ai-model-performance-is-it-reasoning-or-simply-reciting/

By Sang Ruh 14 Jul 2024, 21:58:11 WIB | 👁 59 Programming
Prestasi model AI: Apakah kemampuannya untuk bernalar atau hanya menghafal?

Keterangan Gambar : Prestasi model AI: A


Ketika ChatGPT memberikan jawaban yang tepat terhadap permintaan Anda, apakah itu melalui proses penalaran atau hanya mengingat jawaban dari data latihannya? Peneliti dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan MIT (CSAIL) merancang serangkaian tes untuk melihat apakah model kecerdasan buatan "berpikir" atau hanya memiliki ingatan yang baik.

Ketika Anda meminta model kecerdasan buatan untuk memecahkan masalah matematika seperti "Berapakah 27+62?" ia kembali dengan cepat dengan jawaban yang benar: 89. Bagaimana kita bisa tahu apakah model tersebut memahami dasar aritmetika yang mendasar atau hanya melihat masalah tersebut dalam data latihannya?

Dalam paper mereka, para peneliti menguji GPT-4, GPT-3.5 Turbo, Claude 1.3, dan PaLM2 untuk melihat apakah mereka dapat "umum tidak hanya untuk contoh-contoh yang tidak terlihat dari tugas-tugas yang dikenal, tetapi juga untuk tugas-tugas baru."

Mereka merancang serangkaian 11 tugas yang sedikit berbeda dari tugas standar di mana LLMs umumnya berkinerja baik. LLMs seharusnya berkinerja sama baiknya dengan "tugas-tugas kontrafaktual" jika mereka menggunakan prosedur penyelesaian tugas yang umum dan dapat ditransfer.

Jika sebuah LLM "memahami" matematika, maka seharusnya memberikan jawaban yang benar untuk masalah matematika dalam basis-10 dan basis-9 yang jarang digunakan, misalnya.

Kinerja GPT-4 dalam tes standar (garis biru) bagus, tetapi kemampuan matematika, penalaran logis, penalaran spasial, dan kemampuan lainnya (garis oranye) menurun secara signifikan ketika tugas sedikit diubah.

Model lain menunjukkan degradasi yang serupa dengan GPT-4 yang keluar sebagai yang terbaik. Meskipun terjadi degradasi, kinerja pada tugas-tugas kontrafaktual masih lebih baik daripada kebetulan. Model kecerdasan buatan mencoba untuk menalar melalui tugas-tugas ini tetapi tidak begitu baik dalam melakukannya.

Hasil penelitian menunjukkan bahwa kinerja mengesankan model kecerdasan buatan dalam tugas-tugas seperti ujian perguruan tinggi bergantung pada ingatan yang sangat baik terhadap data latihannya, bukan penalaran. Hal ini lebih menyoroti bahwa model kecerdasan buatan tidak dapat menggeneralisasi ke tugas-tugas yang tidak terlihat.

Zhaofeng Wu, seorang mahasiswa PhD MIT dalam teknik listrik dan ilmu komputer, afiliasi CSAIL, dan penulis utama paper tersebut mengatakan, "Kami telah menemukan aspek menarik dari model bahasa besar: mereka unggul dalam skenario yang akrab, hampir seperti jalan yang sudah dikenal, tetapi kesulitan ketika medan menjadi tidak dikenal. Wawasan ini penting saat kita berusaha meningkatkan adaptabilitas model-model ini dan memperluas horison aplikasinya."

Kita melihat demonstrasi serupa dari ketidakmampuan untuk menggeneralisasi ketika kita menjelajahi seberapa buruk model kecerdasan buatan dalam memecahkan teka-teki perlintasan sungai yang disederhanakan.

Para peneliti menyimpulkan bahwa ketika pengembang menganalisis model mereka, mereka harus "mempertimbangkan kemampuan tugas abstrak sebagai terpisah dari kinerja tugas yang diamati."

Pendekatan "latih-tes" mungkin dapat meningkatkan model ke peringkat teratas, tetapi tidak menawarkan ukuran yang sebenarnya tentang bagaimana model tersebut akan berkinerja ketika dihadapkan pada tugas baru untuk dinalarkan.

Para peneliti menyarankan bahwa bagian dari masalah ini adalah bahwa model-model ini hanya dilatih pada teks bentuk permukaan. Jika LLMs terpapar pada data kontekstual dunia nyata yang lebih banyak dan representasi semantik, mereka mungkin dapat menggeneralisasi ketika dihadapkan pada variasi tugas.

View all comments

Write a comment