نماذج الذكاء الاصطناعي الجديدة من Open AIتُصاب بالهلوسة أكثر من نماذجها القديمة

الثورة – المهندس بسام مهدي:

تُعدّ نماذج الذكاء الاصطناعي o3 وo4-mini، التي أطلقتها Open AI مؤخراً، من أحدث التقنيات في جوانب عديدة.

ومع ذلك، لا تزال النماذج الجديدة تُصاب بالهلوسة، أو تُختلق الأمور في الواقع، تُصاب بالهلوسة أكثر من العديد من نماذج Open AI القديمة.

أثبتت الهلوسة أنها من أكبر وأصعب المشكلات في مجال الذكاء الاصطناعي، وتؤثر حتى على أفضل الأنظمة أداءً اليوم. تاريخياً، تحسّن كل نموذج جديد قليلاً في مجال الهلوسة، حيث كانت الهلوسة أقل من سابقه، ولكن يبدو أن هذا لا ينطبق على o3 وo4-mini.

وفقاً لاختبارات Open AI الداخلية، فإن o3 وo4-mini، وهما ما يُسمى بنماذج الاستدلال، تُصابان بالهلوسة أكثر من نماذج الاستدلال السابقة للشركة – o1 وo1-mini وo3-mini – بالإضافة إلى نماذج Open AI التقليدية “غير الاستدلالية”، مثل GPT-4o، ومن الجدير ذكره هو أن نموذج الاستدلال هو النموذج المدرب (Trained Model) الذي يتم استخدامه لتنفيذ عملية الاستدلال (Inference)، أي التنبؤ بالمخرجات بناءً على بيانات جديدة لم يرها النموذج من قبل. وربما يكون الأمر الأكثر إثارة للقلق هو أن الشركة المُطوّرة لـ Chat GPT لا تعرف سبب حدوث ذلك، في تقريرها الفني عن o3 وo4-mini، كتبت Open AI أن “هناك حاجة إلى مزيد من البحث” لفهم سبب تفاقم الهلوسة مع توسيع نطاق نماذج الاستدلال، يُظهر O3 وo4-mini أداءً أفضل في بعض المجالات، بما في ذلك المهام المتعلقة بالبرمجة والرياضيات، ولكن نظراً لأنهما “يُقدمان ادعاءات أكثر بشكل عام”، فغالباً ما يُدفعان إلى تقديم “ادعاءات أكثر دقة بالإضافة إلى ادعاءات أكثر غير دقيقة / مُصطنعة”، وفقاً للتقرير.

قد تساعد الهلوسة النماذج على التوصل إلى أفكار شيقة والإبداع في “تفكيرها”، ولكنها أيضاً تجعل بعض النماذج صعبة البيع للشركات في الأسواق التي تُعدّ فيها الدقة أمراً بالغ الأهمية، على سبيل المثال، من المرجح ألا ترضى شركة محاماة بنموذج يُدرج الكثير من الأخطاء الواقعية في عقود عملائها.

إحدى الطرق الواعدة لتعزيز دقة النماذج هي تزويدها بإمكانيات البحث على الويب. يحقق نظام GPT-4o من Open AI، المزود ببحث الويب، دقة 90 في المئة على Simple QA، وهو معيار آخر من معايير الدقة لدى Open AI من المحتمل أن يُحسّن البحث أيضاً معدلات الهلوسة في نماذج الاستدلال على الأقل في الحالات التي يكون فيها المستخدمون على استعداد لعرض مطالبات البحث على مزود بحث خارجي، إذا استمر توسيع نطاق نماذج الاستدلال في تفاقم الهلوسة، فسيجعل البحث عن حل أكثر إلحاحاً.

في العام الماضي، تحول قطاع الذكاء الاصطناعي الأوسع نطاقاً إلى التركيز على نماذج الاستدلال بعد أن بدأت تقنيات تحسين نماذج الذكاء الاصطناعي التقليدية تُظهر نتائج متناقصة، يُحسّن الاستدلال أداء النموذج في مجموعة متنوعة من المهام دون الحاجة إلى كميات هائلة من الحوسبة والبيانات أثناء التدريب، ومع ذلك، يبدو أن الاستدلال قد يؤدي أيضاً إلى المزيد من الهلوسة، ما يُمثل تحدياً.

آخر الأخبار
ذكرى الكيماوي في الغوطتين.. جرح مفتوح وذاكرة عصيّة على النسيان قلب شجاع من تل أبيض ينال التكريم.. أبو عبدالله يثبت أن الإنسانية أقوى من المستحيل   مدير منطقة حارم يزور كلية الشرطة ويقدر جهودها في تخريج دفعة مكافحة المخدرات   بين الدخان واللهيب..  السوريون يكتبون ملحمة التضامن 6000 هكتار مساحة حرائق ريف حماة     طفولة بلا تعليم.. واقع الأطفال النازحين في سوريا   حلب تبحث عن موقعها في خارطة الصناعات الدوائية  الرئيس الشرع يصدر المرسوم 143 الخاص بالمصادقة على النظام الانتخابي المؤقت لمجلس الشعب مدير المخابز لـ"الثورة": نظام إشراف جديد ينهي عقوداً من الفساد والهدر زيادة غير مسبوقة لرواتب القضاة ومعاونيهم في سوريا  الشيباني يبحث مع نظيره اليوناني في أثينا العلاقات الثنائية وقضايا مشتركة عاملة إغاثة تروي جهودها الإنسانية في سوريا ريف دمشق تستعيد مدارسها.. وتتهيأ للعودة إلى الحياة حماية التنوع الحيوي وتحسين سبل العيش للمجتمعات المحلية في البادية تحسين واقع الثروة الحيوانية في القنيطرة استئناف الصفقات الضخمة يفتح آفاقاً أوسع للمستثمرين في سوريا    اتوتستراد درعا- دمشق.. مصائد الموت تحصد الأرواح  تفريغ باخرة محملة بـ 2113 سيارة في مرفأ طرطوس وصول باخرة محملة بـ 7700 طن من القمح إلى مرفأ طرطوس تحميل باخرة جديدة بمادة الفوسفات في مرفأ طرطوس اليوم شوارع حلب بين خطة التطوير ومعاناة الأهالي اليومية