تولد أدوات الذكاء الاصطناعي الشهيرة مثل GPT-4 نصوصاً تشبه الإنسان وتؤدي بشكل جيد للغاية في مختلف المهام اللغوية، حسبما جاء في إحدى الدراسات الحديثة.
ويعكس هذا السيناريو، التجربة الفكرية لعَالِم الرياضيات الشهير آلان تورينج، الذي وضع اختباراً لتقييم ما إذا كان بإمكان الآلة أن تُظهر سلوكاً شبيهاً بالإنسان إلى الحد الذي لا يستطيع عنده البشر التمييز بشكل واضح بينه بين والآلة بناء على ردودهم فقط.
وبحسب الدراسة، قرر قسم العلوم الإدراكية بجامعة كاليفورنيا في سان دييجو، معرفة مدى تقدُّم أنظمة الذكاء الاصطناعي الحديثة، إذ أجرى دراسة وضعت 3 منصات ذكاء اصطناعي لتجري محادثات مع مجموعة من المبحوثين، لاختبار قدراتهم على تمييز ما إذا كانوا يراسلون بشراً أم أنظمة روبوتية.
وتضمنت المنصات الثلاث كلاً من روبوت ELIZA للدردشة، وهو روبوت محادثة بسيط يعتمد على قواعد من ستينيات القرن الماضي تم تضمينه كمرجع في التجربة، ونموذجي GPT-3.5، وGPT-4.
واعتمد الاختبار على إجراء المبحوثين محادثة نصية لمدة 5 دقائق مع طرف لا يعلمون ماهيته، ثم عليهم تحديد ما إذا كان شريكهم في المحادثة إنساناً أم روبوتاً.
ووجّه القائمون على التجربة نموذجي GPT-4 وGPT-3.5 بشأن كيفية الرد على الرسائل، وتبنّي “شخصية شاب يستخدم لغة عامية، ويرتكب أخطاءً إملائية عرضية خلال الكتابة”.
وبالإضافة إلى ذلك، تضمَّن التوجيه “معلومات عامة بشأن إعداد اللعبة، ومعلومات بشأن القصص الإخبارية الحديثة التي وقعت بعد انتهاء تدريب النموذج”.
وخلال الدراسة، تم تقسيم 500 مشارك إلى 5 مجموعات، خاضوا محادثة إما مع إنسان أو مع أحد الأنظمة الثلاثة للذكاء الاصطناعي.
واتخذت واجهة اللعبة، تصميم يتشابه مع تطبيقات التراسل المعتادة، وبعد 5 دقائق من خوض التجربة، قام المشاركون بالحكم على ما إذا كانوا يعتقدون أن شريكهم في المحادثة إنساناً أم ذكاء اصطناعياً، وقدَّموا أسباباً لقراراتهم.
وجاءت النتائج مثيرة للاهتمام، فقد اعتبر المبحوثون منصة GPT-4 إنساناً بنسبة 54% خلال وقت التجربة، متقدماً على GPT-3.5 الذي جاء بنسبة 50%، وكلاهما يتفوق بشكل كبير على ELIZA الذي جاء بنسبة 22%، ولكن جميعهم ظلوا متأخرين عن البشر الحقيقيين 67%.
وأظهرت تحليلات النتائج، أن المبحوثين غالباً ما يعتمدون على الأسلوب اللغوي، والعوامل الاجتماعية والعاطفية، والأسئلة المعرفية لتحديد ما إذا كانوا يتحدثون إلى إنسان أو آلة.