⚔️ الـ LLM Models
مين أقوى موديل؟ benchmarks حقيقية ومقارنات وش في وش
📅 آخر تحديث: 2026-06-10
SWE-bench Verified
حل issues حقيقية من GitHub والحكم unit tests — أهم مقياس للـ coding agents
GPQA Diamond
أسئلة علوم مستوى PhD معمولة ضد الـ Google search — بتقيس العمق
AIME 2025
أولمبياد رياضيات — multi-step reasoning صافي
Terminal-bench
مهام حقيقية في الـ terminal — أقرب benchmark لشغل الـ agents الفعلي
🍋 الزتونة
Claude Opus 4.5 كسبان في 2 من 2 benchmarks
كل الموديلات
Anthropic
Claude Opus 4.5
released 2025-11 · 200K ctx
قمة موديلات Anthropic — أعلى رقم منشور على SWE-bench Verified وقت إصداره، ومتخصص في الشغل الطويل المعقد.
Claude Sonnet 4.5
released 2025-09 · 200K (1M beta) ctx
أحسن نقطة توازن سعر/أداء عند Anthropic — الشغّيل اليومي لمعظم الـ coder agents.
OpenAI
GPT-5
released 2025-08 · 400K ctx
موديل OpenAI الرئيسي بنظام الـ routing بين سريع وعميق — قوي جداً في الرياضيات والاستنتاج.
OpenAI (open-weight)
gpt-oss-120b
released 2025-08 · 128K ctx
أول موديل open-weight من OpenAI من سنين — Apache 2.0، يتشغّل local أو عبر Ollama Cloud. أداء مفاجئ لحجمه وسعره.
Gemini 3 Pro
released 2025-11 · 1M ctx
ورقة جوجل القوية — أعلى GPQA منشور في جيله وcontext بمليون token.
Moonshot AI
Kimi K2 Thinking
released 2025-11 · 256K ctx
العملاق الصيني المفتوح — Mixture-of-Experts بترليون parameter، بيقدّم أداء قمة بسعر API أقل بكتير.