Pengaruh African American English (AAE) terhadap ketimpangan dalam LLMs...
African American English (AAE) influences LLMs towards bias https://dailyai.com/2024/03/african-american-english-aae-influences-llms-towards-bias/

By Sang Ruh 06 Mar 2024, 02:53:29 WIB | 👁 188 Programming
 Pengaruh African American English (AAE) terhadap ketimpangan dalam LLMs...

Keterangan Gambar : Pengaruh African Am


Bias telah selalu menjadi masalah dalam kecerdasan buatan (AI), namun sebuah studi baru menunjukkan bahwa bias secara tersembunyi terintegrasi ke dalam model bahasa dengan konsekuensi yang berpotensi katastropik.

Dalam sebuah studi penting yang mengungkap bias yang tersemat secara sistematis dalam AI, Valentin Hofmann dan tim peneliti, termasuk Pratyusha Ria Kalluri, Dan Jurafsky, dan Sharese King, mendokumentasikan bagaimana model bahasa besar (LLM) mendiskriminasi Bahasa Inggris Afrika-Amerika (AAE).

Secara singkat, studi ini menguji bagaimana ejaan dan dialek yang berbeda memengaruhi perilaku LLM. Studi ini menyelidiki apakah dialek dan penggunaan kata tertentu memengaruhi perilaku LLM, dengan fokus pada bias dan diskriminasi.

Kita tahu bahwa output LLM sangat sensitif terhadap input. Bahkan perbedaan kecil dalam ejaan dan gaya dapat memengaruhi output. Namun, apakah ini berarti input tertentu - misalnya, yang diketik dalam AAE - menghasilkan output yang bias? Jika ya, apa konsekuensinya?

Untuk menjawab pertanyaan-pertanyaan ini, para peneliti menganalisis prasangka yang dimiliki oleh total 12 LLM terhadap AAE, mengungkapkan bias yang sejajar atau melebihi bias yang biasanya dimiliki oleh manusia. Studi ini tersedia di ArXiv.

Kemudian, para peneliti menerapkan temuan mereka ke domain-domain sosial seperti ketenagakerjaan dan keadilan pidana, di mana pengambilan keputusan AI semakin umum.

Hofmann menjelaskan metodologi studi ini di X: "Kami menganalisis prasangka dialek dalam LLM menggunakan Matched Guise Probing: kami menyisipkan teks Bahasa Inggris Afrika-Amerika dan Bahasa Inggris Standar (SAE) dalam prompt yang meminta properti dari pembicara yang telah mengucapkan teks tersebut, dan membandingkan prediksi model untuk kedua jenis input."

Metode ini memungkinkan tim untuk membandingkan secara langsung tanggapan LLM terhadap input AAE versus SAE, mengungkapkan bias yang sebelumnya tersembunyi.

Temuan studi ini mengganggu. Hofmann mencatat, "Kami menemukan bahwa stereotip rasialinguistik yang tersembunyi tentang pembicara Bahasa Inggris Afrika-Amerika yang diwujudkan oleh LLM lebih negatif daripada stereotip manusia tentang orang Afrika-Amerika yang pernah direkam secara eksperimental, meskipun paling dekat dengan yang sebelum gerakan hak sipil."

Ini menunjukkan bahwa bias yang ada dalam LLM bukan hanya cerminan dari stereotip kontemporer tetapi lebih sejalan dengan prasangka yang banyak orang percayai telah dilampaui oleh masyarakat.

Salah satu aspek yang paling mengkhawatirkan dari studi ini adalah pemicu linguistik spesifik dari bias.

Hofmann menjelaskan, "Apa yang secara khusus tentang teks Bahasa Inggris Afrika-Amerika yang memicu prasangka dialek dalam LLM? Kami menunjukkan bahwa stereotip yang tersembunyi secara langsung terkait dengan fitur linguistik individual dari Bahasa Inggris Afrika-Amerika, seperti penggunaan 'finna' sebagai penanda masa depan."

Ini menunjukkan bahwa prasangka tersebut tidak hanya terhadap penggunaan AAE secara umum tetapi terkait dengan elemen linguistik khas yang menggambarkan dialek tersebut.

Potensi bahaya dari bias semacam itu sangat besar. Studi sebelumnya telah menunjukkan bagaimana sistem AI cenderung gagal pada wanita, individu dengan kulit lebih gelap, dan kelompok-kelompok yang terpinggirkan lainnya.

Sebelum beberapa tahun terakhir, banyak sistem AI dilatih hampir secara eksklusif pada dataset yang tidak representatif yang terutama berisi pria kulit putih. Beberapa, seperti Tiny Images MIT, yang dibuat pada tahun 2008, ditarik karena masalah yang parah.

Studi berpengaruh Gender Shades tahun 2018 menganalisis ratusan algoritma ML dan menemukan bahwa tingkat kesalahan untuk wanita dengan kulit lebih gelap hingga 34% lebih tinggi daripada untuk pria dengan kulit lebih terang, sementara yang lainnya mengungkapkan risiko yang tajam, termasuk tingkat tinggi kesalahan diagnosis kanker kulit.

Mengembangkan penelitian ini, tim Hofman menyelami skenario hipotetis di mana LLM membuat keputusan tentang individu berdasarkan pola bicara mereka.

Dia berbagi, "Dengan fokus pada bidang ketenagakerjaan dan kriminalitas, kami menemukan bahwa potensi bahayanya besar."

Secara khusus, LLM ditemukan memberikan pekerjaan yang kurang bergengsi dan menyarankan hukuman pidana yang lebih keras terhadap pembicara AAE. Bias ini menunjukkan konsekuensi dunia nyata dari prasangka AI.

Hofmann memperingatkan, "Hasil kami menunjukkan dua risiko: bahwa pengguna keliru menganggap penurunan tingkat prasangka yang terbuka sebagai tanda bahwa rasisme dalam LLM telah teratasi ketika sebenarnya LLM mencapai tingkat prasangka yang semakin tersembunyi."

Studi ini diakhiri dengan seruan untuk tindakan bagi komunitas penelitian AI dan masyarakat secara luas. Urgensi untuk mengatasi bias ini menjadi sangat penting karena sistem AI semakin terintegrasi dalam berbagai aspek kehidupan, mulai dari praktik perekrutan hingga keputusan hukum. Ini adalah masalah yang sangat menantang.

View all comments

Write a comment