Reflection 70B: Kekuatan atau Penipuan LLM Open-Source?
Is Reflection 70B the most powerful open-source LLM or a scam? https://dailyai.com/2024/09/is-reflection-70b-the-most-powerful-open-source-llm-or-a-scam/

By Sang Ruh 09 Sep 2024, 15:43:30 WIB | 👁 18 Programming
Reflection 70B: Kekuatan atau Penipuan LLM Open-Source?

Keterangan Gambar : Reflection 70B: Keku


Model Reflection 70B: Terobosan atau Penipuan?

Pendiri dan CEO HyperWrite, Matt Shumer, baru-baru ini mengumumkan model baru mereka, Reflection 70B, yang diklaim dapat mengatasi masalah halusinasi pada model bahasa besar (LLM) dan menunjukkan hasil benchmark yang mengesankan, bahkan mengalahkan model-model besar seperti GPT-4o. Shumer bekerja sama dengan penyedia data sintetis, Glaive, untuk mengembangkan model ini yang didasarkan pada model Meta, Llama 3.1-70B Instruct.

Dalam pengumuman peluncurannya di Hugging Face, Shumer menyatakan, “Reflection Llama-3.1 70B adalah LLM open-source terbaik di dunia saat ini, dilatih dengan teknik baru yang disebut Reflection-Tuning, yang mengajarkan LLM untuk mendeteksi kesalahan dalam penalarannya dan memperbaiki arah.” Jika Shumer benar-benar menemukan cara untuk mengatasi masalah halusinasi AI, itu akan menjadi pencapaian luar biasa. Namun, beberapa pengujian awal menunjukkan bahwa kinerja Reflection 70B tidak sebaik yang diharapkan.

Meskipun Reflection 70B tersedia untuk diunduh di Hugging Face, beberapa penguji awal tidak dapat mereproduksi hasil benchmark yang mengesankan yang ditunjukkan oleh Shumer. Beberapa pengguna mempertanyakan keakuratan hasil benchmark, terutama skor GSM8K yang lebih dari 99%, yang dianggap mencurigakan. Mereka berpendapat bahwa lebih dari 1% dari dataset GSM8K mungkin salah label, sehingga untuk mendapatkan skor tinggi, model hanya perlu memberikan jawaban yang salah.

Setelah beberapa pengujian, pengguna melaporkan bahwa Reflection ternyata berkinerja lebih buruk dibandingkan Llama 3.1 dan hanya merupakan Llama 3 dengan tuning LoRA. Menanggapi kritik tersebut, Shumer mengakui adanya masalah dengan API dan menyatakan bahwa mereka sedang memperbaiki masalah tersebut. Dia juga memberikan akses ke API pribadi untuk pengujian lebih lanjut.

Namun, beberapa pengujian menunjukkan bahwa API tersebut sebenarnya hanya merupakan pembungkus dari Claude 3.5. Beberapa pengguna mengklaim bahwa output yang dihasilkan berasal dari Llama dan GPT-4o. Shumer tetap bersikeras bahwa hasil awalnya akurat dan mereka sedang berusaha memperbaiki model yang dapat diunduh.

Apakah skeptisisme terhadap Shumer terlalu cepat? Mungkin peluncuran ini hanya dikelola dengan buruk dan Reflection 70B benar-benar merupakan model open-source yang inovatif. Atau mungkin ini hanya contoh lain dari hype AI untuk menarik perhatian investor yang mencari inovasi besar berikutnya dalam bidang AI. Kita perlu menunggu beberapa hari ke depan untuk melihat bagaimana situasi ini berkembang.

View all comments

Write a comment