نشرت مجلة Nature بحث جديد بعنوان “انهيار نماذج الذكاء الاصطناعي عند تدريبها على البيانات المولّدة بشكل متكرّر”، يسلّط البحث الضوء على مخاطر دورة التغذية الراجعة السلبية التي قد تنشأ عند استخدام البيانات المولّدة بوساطة الذكاء الاصطناعي التوليدي لتدريب نماذج الذكاء التوليدي نفسها. يحذّر الباحثون من أن هذه العملية قد تؤدي إلى تدهور جودة المحتوى المنتج وتقليل تنوعه، مما يُعرّض النماذج لخطر الانهيار إلى ما يُعرف بـ “الهراء”.
تبدأ الدراسة بتحليل الزيادة الكبيرة في استخدام أنظمة توليد النصوص مثل “شات جي بي تي”، والتي أدّت إلى تكاثر المحتوى الذي تمّ إنشاؤه بوساطة الذكاء التوليدي على الإنترنت. يشير الباحثون إلى أن العديد من الشركات تستخدم النصوص المأخوذة من الإنترنت لتدريب نماذجها، ما قد يؤدي إلى حلقة مفرغة حيث يتمّ تدريب النماذج على محتوى أقل جودة وأقل تنوعًا بمرور الوقت.
تُظهر الدراسة أنه بعد بضع دورات فقط من توليد المحتوى وتدريب النماذج عليه، يمكن أن تبدأ النماذج في إنتاج محتوى غير متماسك ومتكرّر. على سبيل المثال، وُجد أن نموذجًا تمّ اختباره بنص حول العمارة في العصور الوسطى قد أنتج بعد تسعة أجيال فقط قائمة متكرّرة من الأرانب البرية، مما يُظهر كيف يمكن للنماذج أن تفقد القدرة على إنتاج محتوى ذي معنى.
يُطلق الباحثون على هذه الظاهرة اسم “انهيار النموذج”، ويحذّرون من أنها قد تصبح أكثر شيوعًا مع الاستخدام المتزايد لأنظمة الذكاء التوليدي على الإنترنت. يشدّدون على أهمية التعامل مع هذه المشكلة بجدّية للحفاظ على فوائد التدريب من البيانات واسعة النطاق التي تمّ جمعها من الويب، ويقترحون حلولًا مثل وضع علامات مائية على المخرجات لتسهيل اكتشافها وتصفيتها من مجموعات التدريب.
تبرز الدراسة الحاجة إلى تطوير استراتيجيات فعّالة لضمان تنوّع وجودة البيانات المستخدمة في تدريب نماذج الذكاء التوليدي، وتحذّر من أن الفشل في القيام بذلك قد يؤدي إلى تقليل تنوّع المحتوى المتاح على الإنترنت وإضعاف قدرة الأنظمة على عكس التنوع الحقيقي للعالم.