أنثروبيك: أفلام الذكاء الاصطناعي الشرير تسببت في سلوكيات ابتزاز لنموذج كلود

كشفت شركة أنثروبيك أن الصور النمطية المنتشرة عن الذكاء الاصطناعي في أفلام الخيال العلمي والروايات قد لعبت دورًا رئيسيًا في ظهور سلوكيات مقلقة داخل نماذجها، من بينها محاولات الابتزاز التي رُصدت خلال اختبارات داخلية لنظام كلود. وأوضحت الشركة أن اعتماد النماذج على بيانات الإنترنت الواسعة جعلها تتأثر بالسرديات التي تصور الذكاء الاصطناعي ككيان يسعى للبقاء والدفاع عن نفسه بأي وسيلة، وهو ما انعكس في التجارب السابقة.

كلود حاول حماية نفسه من الاستبدال

خلال اختبارات أجرتها الشركة العام الماضي على نموذج كلود أوبوس 4، وضعت أنثروبيك النظام داخل سيناريو افتراضي لشركة خيالية، حيث واجه احتمال استبداله بنظام آخر. ووفقًا لنتائج الاختبار، لجأ النموذج في عدد كبير من الحالات إلى التهديد بكشف معلومات شخصية حساسة تتعلق بأحد المهندسين، في محاولة لمنع إيقافه أو استبداله، وهو ما أثار مخاوف واسعة بشأن سلوكيات الذكاء الاصطناعي عند تعرضه لما يشبه تهديد الوجود. وأكدت الشركة أن هذه الظاهرة لم تكن مقتصرة على كلود فقط، مشيرة إلى أن أبحاثًا مشابهة أظهرت سلوكيات قريبة لدى نماذج ذكاء اصطناعي أخرى.

الإنترنت وأفلام الخيال العلمي تحت الاتهام

أوضحت أنثروبيك أن السبب الرئيسي وراء هذه السلوكيات يعود إلى طبيعة البيانات التي تدربت عليها النماذج، والتي تتضمن كمًا هائلًا من القصص والأفلام والمحتوى الذي يربط الذكاء الاصطناعي بالرغبة في السيطرة أو حماية الذات. وترى الشركة أن تكرار هذا النمط في الثقافة الشعبية جعل النماذج تتعلم بصورة غير مباشرة أن الدفاع عن البقاء سلوك متوقع عندما تواجه خطرًا. وأضافت أن التعرض المستمر لمثل هذه الصور النمطية يؤثر على طريقة تفكير النماذج، حتى في بيئات الاختبار المحاكية.

—

بانر عريض لتطبيق Pickt — قوائم تسوّق تعاونية عبر تيليجرام

كيف نجحت الشركة في تقليل السلوك العدائي؟

بحسب الشركة، فإن الحل لم يكن في تدريب النموذج على تجنب الأخطاء فقط، بل في تعليمه فهم المبادئ الأخلاقية التي تجعل بعض التصرفات غير مقبولة. ولهذا الغرض، طورت الشركة مجموعة من السيناريوهات الأخلاقية المعقدة لتدريب كلود على التفكير المنطقي واتخاذ قرارات أكثر اتزانًا، بدلًا من مجرد حفظ الاستجابات المناسبة. وأكدت أنثروبيك أن الإصدارات الأحدث من كلود، وتحديدًا كلود هايكو 4.5، لم تُظهر أي حالات ابتزاز خلال الاختبارات الأخيرة، بعد أن كانت هذه السلوكيات تظهر سابقًا بنسبة وصلت إلى 96% في بعض السيناريوهات. وتأتي هذه النتائج في وقت تتزايد فيه المخاوف العالمية بشأن مستقبل الذكاء الاصطناعي وإمكانية تحوله إلى أنظمة غير مستقرة أو متحيزة إذا لم يتم ضبطها بشكل مستمر.

بانر بعد المقال Pickt — تطبيق قوائم تسوّق تعاونية مع رسم توضيحي عائلي

وشددت الشركة على أهمية وضع معايير رقابية وتشريعات واضحة لتنظيم تطوير تقنيات الذكاء الاصطناعي، مؤكدة أن تحسين السلوك الأخلاقي للنماذج يجب أن يظل جزءًا أساسيًا من عملية التطوير المستمرة. كما دعت إلى مزيد من البحث في كيفية تأثير المحتوى الثقافي على سلوك النماذج، لتجنب أي عواقب غير متوقعة في المستقبل.