Jaringan AI Generatif, Halusinasi, dan Hutang Teknis yang Meningkat
Generative AI systems, hallucinations, and mounting technical debt https://dailyai.com/2024/02/generative-ai-systems-hallucinations-and-mounting-technical-debt/

By Sang Ruh 28 Feb 2024, 02:03:18 WIB | 👁 181 Programming
Jaringan AI Generatif, Halusinasi, dan Hutang Teknis yang Meningkat

Keterangan Gambar : Jaringan AI Generati


Seiring dengan perkembangan sistem kecerdasan buatan (AI) seperti large language models (LLMs) yang semakin besar dan kompleks, para peneliti menemukan keterbatasan fundamental yang menarik. Studi terbaru dari Google dan Universitas Singapura telah mengungkapkan mekanisme di balik "halusinasi" AI - di mana model menghasilkan informasi yang meyakinkan namun dibuat-buat - dan akumulasi "hutang teknis," yang dapat menciptakan sistem yang berantakan dan tidak dapat diandalkan dari waktu ke waktu.

Di luar tantangan teknis, menyelaraskan kemampuan dan insentif AI dengan nilai-nilai manusia tetap menjadi pertanyaan terbuka. Meskipun janji AI yang sangat cerdas terlihat menggoda, dengan perusahaan seperti OpenAI mendorong ke arah kecerdasan buatan umum (AGI), mengamankan jalur ke depan berarti mengakui batasan sistem saat ini.

Namun, mengakui risiko dengan hati-hati bertentangan dengan moto Silicon Valley untuk "bergerak cepat dan merusak hal-hal," yang menggambarkan penelitian dan pengembangan AI seperti halnya inovasi teknologi sebelumnya.

Studi 1: Model AI mengakumulasi 'hutang teknis'

Pembelajaran mesin sering dianggap dapat terus berkembang, dengan sistem yang menawarkan kerangka kerja modular, terintegrasi untuk pengembangan. Namun, di balik layar, pengembang mungkin mengakumulasi tingkat 'hutang teknis' yang tinggi yang harus mereka selesaikan di masa mendatang.

Dalam sebuah makalah penelitian Google, "Machine Learning: The High-Interest Credit Card of Technical Debt," para peneliti membahas konsep hutang teknis dalam konteks sistem ML. CEO Kaggle dan peneliti Google D. Sculley dan rekan-rekannya berpendapat bahwa sementara ML menawarkan alat yang kuat untuk membangun sistem kompleks dengan cepat, "kemenangan cepat" ini sering menyesatkan.

Kecepatan dan kesederhanaan dalam mendeploy model ML dapat menyembunyikan beban masa depan yang mereka timbulkan pada keberlanjutan dan evolusi sistem. Hutang teknis ini muncul dari beberapa faktor risiko khusus ML yang harus dihindari atau diperbaiki.

Mengapa hutang teknis penting

Hutang teknis berdampak pada kesehatan dan efisiensi jangka panjang sistem ML. Ketika pengembang terburu-buru untuk menjalankan sistem ML, mereka mungkin mengabaikan kerumitan data atau jebakan 'menyambung' bersama-sama bagian-bagian yang berbeda. Ini mungkin berhasil dalam jangka pendek tetapi dapat mengarah pada kekacauan yang sulit untuk diurai, diperbarui, atau bahkan dipahami nantinya.

Implikasi hutang teknis

Semakin rumit suatu sistem, semakin sulit untuk memperbaiki atau memeliharanya. Ini tidak hanya menghambat inovasi tetapi juga dapat menyebabkan masalah yang lebih serius. Misalnya, jika sistem ML mulai membuat keputusan berdasarkan data yang usang atau bias karena terlalu sulit untuk diperbarui, itu dapat memperkuat atau memperbesar bias masyarakat. Di bidang-bidang kritis seperti perawatan kesehatan atau kendaraan otonom, hutang teknis semacam itu dapat memiliki konsekuensi yang mengerikan, bukan hanya dalam hal waktu dan uang tetapi juga dalam kesejahteraan manusia.

Studi 2: Anda tidak dapat memisahkan halusinasi dari LLMs

Dalam studi yang berbeda namun terkait dari Universitas Nasional Singapura, para peneliti Ziwei Xu, Sanjay Jain, dan Mohan Kankanhalli menyelidiki keterbatasan bawaan LLMs.

"Hallucination is Inevitable: An Innate Limitation of Large Language Models" mengeksplorasi sifat halusinasi AI, yang menggambarkan kasus ketika sistem AI menghasilkan informasi yang masuk akal namun tidak akurat atau sepenuhnya dibuat-buat.

Landasan teoritis halusinasi

Studi ini dimulai dengan merumuskan kerangka teoritis untuk memahami halusinasi dalam LLMs. Para peneliti menciptakan model teoritis yang dikenal sebagai "dunia formal." Lingkungan yang disederhanakan ini memungkinkan mereka untuk mengamati kondisi di mana model AI gagal untuk selaras dengan kebenaran mutlak.

Mereka kemudian menguji dua keluarga besar LLMs:

Llama 2: Secara khusus, versi 70 miliar parameter (llama2-70b-chat-hf) yang dapat diakses di HuggingFace digunakan. Model ini mewakili salah satu entri terbaru ke dalam arena model bahasa besar, dirancang untuk berbagai tugas generasi dan pemahaman teks.

Generative Pretrained Transformers (GPT): Studi ini termasuk pengujian pada GPT-3.5, khususnya model 175 miliar parameter gpt-3.5-turbo-16k, dan GPT-4 (gpt-4-0613), di mana jumlah parameter tepatnya tidak diungkapkan.

LLMs diminta untuk mencantumkan rangkaian karakter dengan panjang yang diberikan menggunakan abjad yang ditentukan, tugas komputasi yang tampaknya sederhana. Hasilnya menunjukkan keterbatasan yang jelas dalam kemampuan model untuk menyelesaikan tugas dengan benar seiring dengan meningkatnya kompleksitas.

Implikasi untuk aplikasi berisiko tinggi sangat besar. Di sektor-sektor seperti perawatan kesehatan, keuangan, atau hukum, di mana akurasi informasi dapat memiliki konsekuensi serius, bergantung pada LLM tanpa filter yang dapat diandalkan untuk menyaring halusinasi ini dapat menyebabkan kesalahan serius.

Akumulasi hutang teknis dan ketidakmungkinan halusinasi dalam LLMs adalah gejala dari masalah yang lebih dalam - paradigma pengembangan AI saat ini mungkin secara inheren tidak sejalan untuk menciptakan sistem yang sangat cerdas dan dapat diandalkan sejalan dengan nilai-nilai manusia dan kebenaran faktual.

Memperbaiki ini bukan hanya tantangan teknis tetapi juga multidisiplin, memerlukan masukan dari etika AI, kebijakan, dan keahlian khusus domain untuk menavigasi dengan aman. Saat ini, ini tampaknya bertentangan dengan prinsip industri untuk "bergerak cepat dan merusak hal-hal." Semoga manusia bukanlah 'hal-hal' tersebut.

View all comments

Write a comment