الثــــورة:
تعلم روبوت رباعي الأرجل على شكل «كلب آلي» القيام بمفرده، دون محاكاة الكومبيوتر، واستطاع أن يلوح بساقيه في الهواء مثل خنفساء غاضبة.
بعد 10 دقائق من المحاولات، تمكن الروبوت من الانقلاب إلى مقدمته، وبعد نصف ساعة، بدأ الروبوت خطواته الخرقاء الأولى، مثل الجرو حديث الولادة. وبعد ساعة، بدأ الروبوت يتجول حول المختبر بثقة.
استخدم هافنر وزملاؤه في جامعة كاليفورنيا، تقنية ذكاء صناعي تسمى التعلم المعزز، والتي تدرب الخوارزميات عن طريق مكافأتهم على الإجراءات المرغوبة، لتدريب الروبوت على المشي من الصفر في العالم الحقيقي.
استخدم الفريق نفس الخوارزمية لتدريب ثلاثة روبوتات أخرى، مثل واحد كان قادراً على التقاط الكرات ونقلها من درج إلى آخر.
تقليديا، يتم تدريب الروبوتات في جهاز محاكاة الكومبيوتر قبل أن تحاول فعل أي شيء في العالم الحقيقي. على سبيل المثال، قام روبوت ثنائي الأرجل يسمى «كاسي» بتعليم نفسه المشي باستخدام التعلم المعزز، ولكن يفعل ذلك في محاكاة.
قال هافنر، في المشروع: «المشكلة هي أن جهاز المحاكاة لن يكون بنفس دقة العالم الحقيقي، وأن تكييف الدروس من المحاكاة في العالم الحقيقي يتطلب أيضاً هندسة إضافية».
وتستخدم خوارزمية الفريق، المسماة «Dreamer»، الخبرات السابقة لحركات الربوتات لبناء نموذج للعالم المحيط.
وتسمح «Dreamer» أيضاً بإجراء حسابات التجربة والخطأ في برنامج كومبيوتر بدلاً من العالم الحقيقي، من خلال التنبؤ بالنتائج المستقبلية المحتملة لإجراءاته المحتملة. هذا يسمح للربوتات بالتعلم بشكل أسرع. وبمجرد أن يتعلم الروبوت المشي، استمر في تعلم التكيف مع المواقف غير المتوقعة، مثل مقاومة السقوط بعصا.
يقول ليريل بينتو، الأستاذ المتخصص في الروبوتات والتعلم الآلي: «يعد تعليم الروبوتات من خلال التجربة والخطأ مشكلة صعبة، ويزداد الأمر صعوبة بسبب فترات التدريب الطويلة التي يتطلبها مثل هذا التدريس… أظهرت خوارزمية «Dreamer» أن التعلم المعزز العميق والنماذج العالمية قادرة على تعليم الروبوتات مهارات جديدة في فترة زمنية قصيرة جداً».