Anthropic Meluncurkan Claude 3 yang Mengungguli GPT-4 dalam Benchmark
Anthropic releases Claude 3 which beats GPT-4 in benchmarks https://dailyai.com/2024/03/anthropic-releases-claude-3-which-beats-gpt-4-in-benchmarks/

By Sang Ruh 05 Mar 2024, 16:23:34 WIB | 👁 330 Programming
Anthropic Meluncurkan Claude 3 yang Mengungguli GPT-4 dalam Benchmark

Keterangan Gambar : Anthropic Meluncurka


Startup kecerdasan buatan (AI) Anthropic yang berbasis di San Francisco telah merilis LLM terbarunya dengan keluarga model Claude 3.

Claude 3 hadir dalam tiga variasi, yaitu Haiku, Sonnet, dan Opus. Untuk yang kurang berpuisi di antara kita, itu berarti kecil, sedang, dan besar. Claude 3 Opus adalah model paling canggih dari Anthropic dan merupakan yang pertama dalam industri yang mengklaim dapat mengalahkan GPT-4 dari OpenAI dalam berbagai benchmark.

GPT-4 telah menjadi standar emas yang digunakan oleh perusahaan AI untuk membandingkan kinerja LLM mereka. Perbandingan tersebut sering menggunakan kata-kata seperti "mendekati" atau "hampir", tetapi Anthropic akhirnya dapat mengklaim melebihi kemampuan GPT-4.

Berikut adalah angka benchmark untuk Claude 3 dibandingkan dengan GPT-4, GPT-3, dan Gemini Ultra dan Pro.

Angka benchmark Claude 3 dibandingkan dengan GPT-4, GPT-3.5, Gemini Ultra, dan Gemini Pro. Sumber: Anthropic

Perlu dicatat bahwa angka GPT-4 di atas adalah yang disediakan oleh OpenAI dalam laporan teknis sebelum GPT-4 dirilis. Kartu model Claude 3 mengakui bahwa skor lebih tinggi untuk GPT-4 Turbo telah dilaporkan.

Meskipun demikian, angka Claude 3 Opus merupakan hal yang besar. Meskipun terdapat argumen yang tak terhindarkan tentang bagaimana perusahaan mencapai angka-angka ini, Anthropic mengatakan bahwa Claude 3 Opus mewakili "kecerdasan yang lebih tinggi daripada model lain yang tersedia."

Biaya input/output API Claude 3 Opus akan mencapai $15 / $75 per juta token. Itu mahal dibandingkan dengan GPT-4 Turbo yang biayanya $10 / $30. Claude 3 Sonnet ($3 / $15) dan Claude 3 Haiku ($0.25 / $1.25) menawarkan nilai yang sangat baik ketika melihat angka kinerja untuk model-model yang lebih kecil ini.

Jika Anda ingin mencoba Claude 3 secara gratis, Anda dapat melakukannya di chatbot claude.ai Anthropic setelah servernya pulih dari lonjakan lalu lintas. Ini didukung oleh Claude 3 Sonnet, dengan pengguna Pro berbayar mendapatkan akses ke Opus.

Model Claude 3 bukan multi-modal tetapi memiliki kemampuan visi yang mengesankan. Mereka tidak dapat menghasilkan gambar untuk Anda, tetapi benchmark menunjukkan bahwa Opus bagus dalam menganalisis foto, grafik, diagram, dan diagram teknis.

Kemampuan visi Claude 3 dibandingkan dengan GPT-4V, Gemini Ultra, dan Gemini Pro. Sumber: Anthropic

Anthropic mengatakan bahwa model Claude 3 mampu menerima input yang melebihi 1 juta token, tetapi, untuk sebagian besar pengguna, jendela konteks akan terbatas pada 200k token untuk saat ini. Itu masih jauh lebih banyak daripada 128k konteks GPT-4 Turbo.

Jendela konteks yang besar hanya berguna ketika dikombinasikan dengan recall yang baik, dan Anthropic mengklaim bahwa Opus memberikan "recall yang mendekati sempurna, melebihi 99% akurasi."

Anthropic adalah pendukung kuat apa yang disebutnya "AI Konstitusional" yang bertujuan untuk meningkatkan keamanan dan transparansi modelnya. Dengan Claude 2, upaya ini untuk keamanan mengakibatkan banyak penolakan untuk merespons prompt yang sebenarnya tidak berbahaya.

Claude 3 lebih baik dalam memahami nuansa prompt untuk lebih baik memutuskan apa yang melanggar atau tidak melanggar batas-batas Anthropic. Claude 3 juga mencapai akurasi yang jauh lebih baik dan mengurangi halusinasi dibandingkan dengan Claude 2.1.

Sebagian pesimis AI mengklaim bahwa kita menuju ke musim dingin AI dan bahwa kinerja model LLM mencapai plateau, tetapi Anthropic tidak setuju. Perusahaan mengatakan bahwa mereka tidak percaya bahwa "kecerdasan model berada di dekat batasnya."

Mereka berencana untuk membawa beberapa peningkatan menarik ke Claude 3 di masa depan dengan penambahan kemampuan agen yang lebih canggih termasuk Penggunaan Alat serta coding interaktif (REPL).

Harga yang tinggi mungkin membuat pasar awal untuk Claude 3 Opus berada di aplikasi riset atau profesional yang lebih niche. Harga dan kinerja yang ditawarkan oleh Sonnet dan Haiku kemungkinan akan menjadi tempat di mana adopsi terbesar terjadi untuk saat ini.

Apakah kita akan melihat penurunan harga dari OpenAI? Dengan OpenAI merasakan tekanan di puncak benchmark, kita pasti sudah sangat dekat dengan pengumuman GPT-5.

View all comments

Write a comment