📡Learn-in-Depth
ارجع لـ آخر الأخبار📅 2026-06-102 دقايق قراءة

سباق الـ benchmarks — الأرقام اللي بتتحرك كل شهر ومعناها الحقيقي

#benchmarks#swe-bench#gpqa#evaluation

كل ما موديل جديد ينزل، أول slide في الإعلان بيبقى جدول benchmarks والأرقام عمّالة تكسر في بعضها. والسؤال اللي المفروض يقف في زورك: الأرقام دي بتتقاس إزاي أصلاً؟ ومين بيتأكد إن مفيش لعب؟

خد أهم 3 benchmarks في عالم الـ agents وافهمهم مرة واحدة وخلاص:

SWE-bench Verified — الملك في الـ coding. الفكرة عبقرية في بساطتها: ياخدوا issues حقيقية من GitHub repos حقيقية — مش ألغاز معمولة مخصوص — ويسيبوا الموديل يحلها، والحكم هو الـ unit tests بتاعة المشروع نفسه: عدّت يبقى نجح. نسخة الـ Verified دي 500 مسألة اتراجعت يدوياً بعد ما اكتشفوا إن النسخة الأصلية فيها مسائل مكسورة أصلاً. النتايج فيه اتحركت من حوالي 4% سنة 2023 لفوق الـ 80% للموديلات القمة دلوقتي — ودي أسرع قفزة قدرات اتسجلت في تاريخ المجال.

GPQA Diamond — أسئلة علوم على مستوى PhD، معمولة مخصوص بحيث الـ Google search مايحلهاش. بتقيس العمق المعرفي والاستنتاج، مش الحفظ.

AIME — مسائل أولمبياد رياضيات أمريكية. بتقيس الـ multi-step reasoning الصافي: خطأ صغير في خطوة 3 يضيّع الإجابة كلها.

تقوللي حلو، يبقى نختار الموديل اللي رقمه أعلى وخلاص؟ قولك لأ، مش حلو، وهنا المربط. ليه؟ أولاً فيه حاجة اسمها contamination — الموديل ممكن يكون شاف المسائل دي في الـ training data، فيحفظ مش يفهم. ثانياً فرق 2-3 نقط بين موديلين غالباً جوه هامش الضوضاء. ثالثاً — ودي الأهم — الـ benchmark بيقيس الموديل في معمل، وانت بتشغّله في حياة: codebase قديمة وrequirements ناقصة وعميل بيغيّر رأيه. ولاحظ إن نتيجة SWE-bench نفسها بتتأثر بالـ harness اللي شغّل الموديل مش الموديل لوحده.

الزتونة:

أولاً: الـ benchmarks ممتازة كـ فلتر أولي — موديل واخد 30% في SWE-bench مش هيعملك معجزات.

ثانياً: فوق مستوى معين، الفروق الصغيرة بين الكبار محسومة بالـ harness والسعر مش بالنقط.

ثالثاً: الحكم النهائي هو eval بتاعك انت — مجموعة tasks من شغلك الحقيقي بتجرّبها على كل موديل جديد. ساعة تجهيز توفرلك شهور ندم.

وعشان تطبّق النصيحة دي، عملنالك صفحة مقارنة الـ Models — تختار موديلين وتشوف أرقامهم وش في وش. بس افتكر وانت بتقارن: الرقم بداية الحكاية، مش آخرها. طب آخرها إيه؟ آخرها انت — وإيه اللي شغلك محتاجه فعلاً.

🔗 المصادر

🧭 مرتبط بالموضوع ده