⚔️ الـ LLM Models

مين أقوى موديل؟ benchmarks حقيقية ومقارنات وش في وش

📅 آخر تحديث: 2026-06-10

اختار الموديل الأول

ضد

اختار الموديل التاني

SWE-bench Verified

حل issues حقيقية من GitHub والحكم unit tests — أهم مقياس للـ coding agents

Claude Opus 4.580.9%

Claude Sonnet 4.577.2%

GPQA Diamond

أسئلة علوم مستوى PhD معمولة ضد الـ Google search — بتقيس العمق

Claude Opus 4.587%

Claude Sonnet 4.583.4%

AIME 2025

أولمبياد رياضيات — multi-step reasoning صافي

Claude Opus 4.5مفيش رقم منشور

Claude Sonnet 4.587%

Terminal-bench

مهام حقيقية في الـ terminal — أقرب benchmark لشغل الـ agents الفعلي

Claude Opus 4.5مفيش رقم منشور

Claude Sonnet 4.550%

🍋 الزتونة

Claude Opus 4.5 كسبان في 2 من 2 benchmarks

كل الموديلات

Anthropic

Claude Opus 4.5

released 2025-11 · 200K ctx

قمة موديلات Anthropic — أعلى رقم منشور على SWE-bench Verified وقت إصداره، ومتخصص في الشغل الطويل المعقد.

swe-bench-verified: 80.9%gpqa-diamond: 87%

Claude Sonnet 4.5

released 2025-09 · 200K (1M beta) ctx

أحسن نقطة توازن سعر/أداء عند Anthropic — الشغّيل اليومي لمعظم الـ coder agents.

swe-bench-verified: 77.2%gpqa-diamond: 83.4%aime-2025: 87%

OpenAI

GPT-5

released 2025-08 · 400K ctx

موديل OpenAI الرئيسي بنظام الـ routing بين سريع وعميق — قوي جداً في الرياضيات والاستنتاج.

swe-bench-verified: 74.9%gpqa-diamond: 85.7%aime-2025: 94.6%

OpenAI (open-weight)

gpt-oss-120b

released 2025-08 · 128K ctx

أول موديل open-weight من OpenAI من سنين — Apache 2.0، يتشغّل local أو عبر Ollama Cloud. أداء مفاجئ لحجمه وسعره.

swe-bench-verified: 62.4%gpqa-diamond: 80.1%

Google

Gemini 3 Pro

released 2025-11 · 1M ctx

ورقة جوجل القوية — أعلى GPQA منشور في جيله وcontext بمليون token.

swe-bench-verified: 76.2%gpqa-diamond: 91.9%aime-2025: 95%

Moonshot AI

Kimi K2 Thinking

released 2025-11 · 256K ctx

العملاق الصيني المفتوح — Mixture-of-Experts بترليون parameter، بيقدّم أداء قمة بسعر API أقل بكتير.

swe-bench-verified: 71.3%gpqa-diamond: 84.5%