«شات جي بي تي» يعجز عن تلخيص الأبحاث العلمية

أظهرت دراسة غير رسمية أجراها فريق من الجمعية الأميركية لتقدم العلوم (AAAS) أن نموذج الذكاء الاصطناعي "شات جي بي تي" قادر على إنتاج ملخصات علمية تشبه تلك التي ينشرها فريق "SciPak"، لكنها لا تزال تتطلب مراجعة دقيقة من الصحفيين العلميين لضمان دقتها.

تقاصيل التجربة

وخلال الفترة الممتدة من ديسمبر 2023 إلى ديسمبر 2024، قام الباحثون باختيار ورقتين بحثيتين أسبوعيًا لتلخيصهما باستخدام "شات جي بي تي"، ضمن ثلاث مهام مختلفة بدرجات تعقيد متفاوتة. وشملت الاختبارات أوراقًا تحتوي على مصطلحات تقنية، واكتشافات مثيرة، ومشاركين بشريين، وصيغ غير تقليدية.

وبحسب ما أفاد به تقرير نشره موقع "Ars Technica"، فإن النتائج أظهرت أن النموذج استطاع "محاكاة بنية ملخص SciPak بشكل مقبول"، لكنه غالبًا ما "يُضحّي بالدقة لصالح البساطة" ويُنتج نصوصًا "تتطلب تدقيقًا حقائقيًا دقيقًا" من قِبل المحررين العلميين.

وقالت أبيغيل آيزنشتات، الكاتبة في الجمعية، إن هذه الأدوات قد تُستخدم مستقبلًا كـ"مساعدات للصحفيين"، لكنها "ليست جاهزة للاعتماد الأساسي" في تحرير المحتوى العلمي الاحترافي.

نتائج التقييم

وخضع 64 ملخصًا أنتجه "شات جي بي تي" لتقييم كمّي ونوعي من قبل كتّاب SciPak الأصليين. وأظهرت نتائج التقييمات أن متوسط قابلية دمج هذه الملخصات في عمل الصحفيين بلغ 2.26 على مقياس من 1 إلى 5، بينما حصلت على 2.14 فقط من حيث الجاذبية.

وأشار التقييم النوعي إلى أن الذكاء الاصطناعي كثيرًا ما يخلط بين الارتباط والسببية، ويفتقر إلى السياق، ويبالغ في توصيف النتائج باستخدام عبارات مثل "مبتكر" و"جديد"، وهو ما قد يضلل القارئ غير المتخصص.

أداء جيد ولكن…

وبالرغم من أن النموذج أظهر أداءً جيدًا في "نسخ" المعلومات من الأوراق العلمية البسيطة، إلا أنه أظهر ضعفًا ملحوظًا في "ترجمتها" أو شرح المنهجيات والقيود العلمية، لا سيما في الأوراق التي تتضمن نتائج متشابكة أو عند دمج دراستين في ملخص واحد.

ويحذر الباحثون من أن التحيز البشري في التقييمات قد يلعب دورًا في النتائج، خاصة في ظل المخاوف من أن الذكاء الاصطناعي قد يهدد بعض المهام الجوهرية للصحفيين العلميين.