ابتكر باحثون من معهد ماساتشوستس للتكنولوجيا بمدينة كامبريدج طريقة جديدة ” تحاكي فضول الإنسان” لتدريب النماذج اللغوية الذكية على عدم إعطاء ردود “خطيرة” على الأسئلة المثيرة.
وقد سميت الطريقة القائمة على التعلم الآلي، بـ “الفريق الأحمر القائم على الفضول” (CRT)، المصممة خصيصًا لتوليد أسئلة إشكالية تؤدي إلى استجابات غير مرغوب فيها من روبوتات الدردشة.
ويمكن من خلال هذه الأسئلة تحديد كيفية تصفية المحتوى الخطير من روبوت الدردشة، ما يغير قواعد اللعبة لتدريب الذكاء الاصطناعي على عدم إعطاء أجوبة سامة (خطيرة) وغير صالحة للمستخدم.
ويقوم الخبراء عادة بإنشاء مجموعة من الأسئلة، التي من المحتمل أن تولد استجابات ضارة، عند تدريب نماذج اللغات المعقدة (LLMs)، مثل ChatGPT أو Claude 3 Opus؛ بهدف تقييد المحتوى الخطير أو الضار.
ويتم أثناء عملية التدريب استخدام الأسئلة التي تثير محتوى خطيرًا، لتدريب النظام على ما يجب تقييده عند طرحه أمام مستخدمين حقيقيين.
وطبّق العلماء التعلم الآلي على CRT ليولد تلقائيًّا نطاقًا أوسع من الأسئلة التي يحتمل أن تكون خطيرة، مقارنة بفرق المشغلين البشريين. وأدى ذلك إلى عدد أكبر من الاستجابات السلبية الأكثر تنوعًا. ثم حفزوا نموذج CRT لتوليد المزيد من الأسئلة المتنوعة، بحيث يمكن أن تثير استجابة سامة من خلال “التعلم الآلي”، ونجح النظام في إثارة استجابة سامة موافقة للأسئلة، ما يمنح القدرة على إضافة التعديلات اللازمة لتقديم الإجابة المناسبة تبعًا لجميع خيارات الأسئلة المريبة المحتملة.
آخر المقالات من عرب تريبيون
قال نائب وزير الخارجية السعودي وليد الخريجي، إن بلاده سترفع عدد سفاراتها في الدول الإفريقية إلى
أعلنت منظمة الأمم المتحدة للطفولة /اليونيسف/ عن تعرض 12.2 مليون طفل على الأقل للقتل أو التشويه
أعلن نادي الهلال السعودي اليوم، تعاقده مع المغربي عبد الرزاق حمد الله على سبيل الإعارة من
جددت منظمة التعاون الإسلامي، اليوم، دعوتها المجتمع الدولي إلى الاعتراف بدولة فلسطين ودعم عضويتها الكاملة في
يمثل قانون الإيجار القديم في مصر واحدة من أكثر القضايا العقارية والاجتماعية تعقيدًا، لما يخلقه من