- PT KAI dan Dishub Lumajang Tutup Perlintasan Kereta Api Liar
- 26 Ribu Warga Telah Berkunjung dan Manfaatkan Pelayanan di Mal Pelayanan Publik Lumajang
- Diskominfo Ajak Warga Selektif Terima Informasi Jelang Pilkada Lumajang 2024
- DPRD Lumajang Siap Support Peningkatan Kapasitas dan Profesionalitas Wartawan
- Penataan Kawasan Pura Mandhara Giri Semeru Agung Bisa Tingkatkan Ekonomi Warga Sekitar
- Kawasan Pura Madhara Giri Semeru Agung Lumajang Akan Ditata Berkonsep Pembangunan Berkelanjutan
- Ponpes Darun Najah Lumajang Masuk 3 Besar Lomba Implementasi Pesantren Sehat Jatim
- Ini Kronologi Kecelakaan Beruntun di Jatiroto Lumajang
- Kecelakaan Beruntun di Sukosari Lumajang Melibatkan Truk dan Bus Madjoe Berlian
- Bus Terlibat Kecelakaan Beruntun di Jatiroto Lumajang
Reflection 70B: Kekuatan atau Penipuan LLM Open-Source?
Is Reflection 70B the most powerful open-source LLM or a scam? https://dailyai.com/2024/09/is-reflection-70b-the-most-powerful-open-source-llm-or-a-scam/
Keterangan Gambar : Reflection 70B: Keku
Model Reflection 70B: Terobosan atau Penipuan?
Pendiri dan CEO HyperWrite, Matt Shumer, baru-baru ini mengumumkan model baru mereka, Reflection 70B, yang diklaim dapat mengatasi masalah halusinasi pada model bahasa besar (LLM) dan menunjukkan hasil benchmark yang mengesankan, bahkan mengalahkan model-model besar seperti GPT-4o. Shumer bekerja sama dengan penyedia data sintetis, Glaive, untuk mengembangkan model ini yang didasarkan pada model Meta, Llama 3.1-70B Instruct.
Dalam pengumuman peluncurannya di Hugging Face, Shumer menyatakan, “Reflection Llama-3.1 70B adalah LLM open-source terbaik di dunia saat ini, dilatih dengan teknik baru yang disebut Reflection-Tuning, yang mengajarkan LLM untuk mendeteksi kesalahan dalam penalarannya dan memperbaiki arah.” Jika Shumer benar-benar menemukan cara untuk mengatasi masalah halusinasi AI, itu akan menjadi pencapaian luar biasa. Namun, beberapa pengujian awal menunjukkan bahwa kinerja Reflection 70B tidak sebaik yang diharapkan.
Meskipun Reflection 70B tersedia untuk diunduh di Hugging Face, beberapa penguji awal tidak dapat mereproduksi hasil benchmark yang mengesankan yang ditunjukkan oleh Shumer. Beberapa pengguna mempertanyakan keakuratan hasil benchmark, terutama skor GSM8K yang lebih dari 99%, yang dianggap mencurigakan. Mereka berpendapat bahwa lebih dari 1% dari dataset GSM8K mungkin salah label, sehingga untuk mendapatkan skor tinggi, model hanya perlu memberikan jawaban yang salah.
Setelah beberapa pengujian, pengguna melaporkan bahwa Reflection ternyata berkinerja lebih buruk dibandingkan Llama 3.1 dan hanya merupakan Llama 3 dengan tuning LoRA. Menanggapi kritik tersebut, Shumer mengakui adanya masalah dengan API dan menyatakan bahwa mereka sedang memperbaiki masalah tersebut. Dia juga memberikan akses ke API pribadi untuk pengujian lebih lanjut.
Namun, beberapa pengujian menunjukkan bahwa API tersebut sebenarnya hanya merupakan pembungkus dari Claude 3.5. Beberapa pengguna mengklaim bahwa output yang dihasilkan berasal dari Llama dan GPT-4o. Shumer tetap bersikeras bahwa hasil awalnya akurat dan mereka sedang berusaha memperbaiki model yang dapat diunduh.
Apakah skeptisisme terhadap Shumer terlalu cepat? Mungkin peluncuran ini hanya dikelola dengan buruk dan Reflection 70B benar-benar merupakan model open-source yang inovatif. Atau mungkin ini hanya contoh lain dari hype AI untuk menarik perhatian investor yang mencari inovasi besar berikutnya dalam bidang AI. Kita perlu menunggu beberapa hari ke depan untuk melihat bagaimana situasi ini berkembang.