Home الأخبار الرئيسية هل ما زال بإمكاننا الوثوق بالدراسات العلمية ؟ تحليل لأدوات التقييم وأخطائها

هل ما زال بإمكاننا الوثوق بالدراسات العلمية ؟ تحليل لأدوات التقييم وأخطائها

الكاتب -

أغسطس 28, 2025

تُنشر يوميًا مئات الدراسات العلمية حول العالم. ومع ذلك، يتناقض الكثير منها مع بعضها البعض، حتى لو كانت تُركز على الموضوع نفسه وتستخدم منهجيات متشابهة. يكشف هذا التناقض عن مشكلة أعمق : حيث يعاني النظام العلمي الحالي من مشاكل هيكلية تُضعف من موثوقية البحث العلمي.

النقاط الرئيسية :

عندما تكشف جامعة عن هذه الاختلالات في مجلتها

يتم دراسة السجائر الإلكترونية، كأي منتج استهلاكي آخر، على نطاق واسع من قِبل الباحثين. ومع ذلك، لا يمر يوم دون نشر دراسة تُناقض استنتاجات بحث او دراسة سابقة. في حين أن استخدام منهجية مختلفة قد يُفسر أحيانًا سببا لتوصل دراستين متشابهتين إلى استنتاجات متباينة، إلا أن هذا ليس هو الحال دائمًا. في الحقيقة، يُعاني المجتمع العلمي من العديد من المشاكل.

قبل بضعة أيام، نُشر بحث بريطاني جديد. كان هذا بمثابة مراجعة أجريت في جامعة، أي مراجعة منهجية لمراجعات منهجية أخرى. إليكم ما جاء فيها:

عندما ينشر باحث دراسة حول موضوع مُحدد، تُسمى دراسة واحدة. عندما يُحلل باحث نتائج جميع الدراسات حول الموضوع نفسه، يُطلق على ذلك مراجعة منهجية. ولذلك، تهدف المراجعة الشاملة إلى دراسة نتائج عدة دراسات (مراجعات منهجية) قامت بدورها بتحليل نتائج عدة دراسات. باختصار، تُشبه المراجعة الشاملة إلى حد ما عملية تجميع لنتائج دراسات عديدة.

ركزت المراجعة الشاملة المعنية على استخدام السجائر الإلكترونية بين الشباب. وذكرت في استنتاجاتها أنها لاحظت “أدلة ثابتة على أن ارتفاع مخاطر البدء بالتدخين، وتعاطي المواد المخدرة (الماريجوانا، والكحول، والمنشطات). ويرتبط الاستخدام بأمراض مثل الربو، والسعال، ومشاكل القلب، ومشاكل الصحة النفسية.

ولأول مرة، لن ننتقد هذه المراجعة الشاملة تحديدًا. فنظرًا لكثرة القيود التي واجهها القائمين عليها، فقد غفلوا بوضوح عن تقييم نتائجهم هم شخصيا. و ما سنركز عليه هذه المرة هو أداة AMSTAR 2.

الـ AMSTAR 2، أداة القياس التي تُشوّه الواقع

أداة AMSTAR 2 هي أداة تقييم نقدي. يشير هذا المصطلح إلى مجموعة من الأدوات التي يستخدمها العلماء لتقييم جودة الدراسة. في هذه الحالة، يُعد AMSTAR 2، وهو اختصار لعبارة “A MeaSurement Tool to Assess systematic Reviews”، أو كما وصفها موليير، “أداة قياس لتقييم المراجعات المنهجية”.

هناك العديد من الأدوات من هذا النوع. صُممت AMSTAR 2 لتقييم جودة المراجعات المنهجية، وتُقيّم GRADE مدى يقين الأدلة، وتُستخدم هذه الأداة منظمة كوكرين للحد من التحيز لتقييم الدراسات الفردية، وتُستخدم NOS لدراسات الأتراب ودراسات الحالات والشواهد، وتُستخدم QUADAS-2 للدراسات التشخيصية، وهكذا. هناك المئات من الأدوات.

جميعها تسعى إلى تحقيق هدف واحد: توحيد جودة الدراسة العلمية. مع نشر عشرات الآلاف من الدراسات البحثية سنويًا، احتاج العلماء إلى طريقة سريعة لفرز البيانات والأبحاث غير الدقيقة.

من بين كل هذه الأدوات، تبرز بعض الأدوات لأسباب معينة. هذا هو الحال مع AMSTAR 2، وهو ليس سوى المعيار الأمثل لتقييم جودة المراجعات المنهجية. بشكل عام، إذا أجرى باحث بحثًا باستخدام بيانات من مراجعة منهجية واحدة أو أكثر، فإن غالبية المجلات الطبية التي تُنشر فيها الدراسات العلمية سترفض عمل الباحث إذا لم يستخدم هذه الأداة. ولذلك، استخدمتها المراجعة الشاملة التي ناقشناها في الفقرة السابقة.

حتى عندما يُشير الباحثون في مخطوطاتهم إلى أن المراجعة المنهجية أُجريت/أُعدّت/صُممت وفقًا لـ AMSTAR 2، فإن هذا لا يعني بالضرورة أنها تتمتع بمستوى عالٍ أو حتى متوسط من الثقة وفقًا لـ AMSTAR 2.معظم المراجعات المنهجية التي أفادت بالالتزام بـ AMSTAR 2 كانت ذات جودة منهجية منخفضة للغاية: دراسة بحثية تجميعية مقطعية.

النتيجة؟ يذكر الباحثون: “معظم المراجعات المنهجية التي أدرجناها صُنفت على أنها منخفضة أو حرجة الجودة باستخدام AMSTAR 2.”

إذن، هل ستعتمد هذه المراجعة الشاملة بشكل شبه كامل على مراجعات منهجية رديئة الجودة؟ حسنًا، لا. من المهم ملاحظة أن AMSTAR 2 يصنف، في المتوسط، أكثر من 90% من المراجعات المنهجية على أنها ذات جودة “حرجة”. 2 ولكن لماذا؟

يعتمد AMSTAR 2 على ستة عشر معيارًا، سبعة منها تُعتبر “أساسية”، والخلل فيها يُشوّه التقييم النهائي بشكل كبير. في الواقع، أقل من نصف هذه المعايير تنطبق فعليًا على جميع المراجعات المنهجية. 3 أضف إلى ذلك معايير غامضة، لا يفهمها الباحثون جيدًا، 4 والنتيجة هي أداة يعتبرها الكثيرون قاصرة او غير كافية.

يُطرح السؤال إذن: لماذا نستخدم AMSTAR 2 لتقييم جودة المراجعات المنهجية إذا كان العديد من الباحثين يعلمون أنها غير مناسبة تمامًا لهذه المهمة؟

ببساطة، لأن AMSTAR 2 هي الأداة القياسية التي يتوقعها أو ينتظرها المجتمع العلمي. على الرغم من جميع عيوبها، إلا أنها، وفقًا للعرف الأكاديمي، هي المعيار الذي يجب على الباحثين استخدامه لتقييم جودة المراجعة المنهجية.

عامل التأثير (Impact Factor)

أصبح عامل التأثير أداة أخرى مصممة لتقييم جودة الدراسة العلمية. في الأصل، وُضع لمساعدة المكتبات على اختيار المجلات التي تشتريها. واليوم، وعلى الرغم من التحذيرات المتكررة من يوجين غارفيلد (مُبتكر عامل التأثير)، أصبح عامل التأثير المعيار الأساسي لتقييم الباحثين والأعمال التي ينشرونها.

يُعدّ استخدام عوامل تأثير المجلات، بدلًا من العدد الفعلي للاستشهادات بالمقالات، لتقييم الباحثين مسألةً مثيرة للجدل إلى حد كبير.يوجين غارفيلد، مُبتكر عامل التأثير

على ماذا يعتمد عامل التأثير؟ المجلة التي نُشر فيها الباحث أعماله. وبالتالي، تعتمد جودة عمل الباحث، وجودة الباحث نفسه، على أمر واحد: مكان النشر، وليس جودة دراسته.

كأننا نقيّم فيلمًا وممثليه، لا بناءً على السيناريو أو الأداء، بل بناءً على قاعة العرض. هذا غير منطقي، ومع ذلك، هذا بالضبط ما يحدث في الأوساط العلمية فيما يتعلق بالدراسات.

المجلات العلمية السهلة

مشكلة أخرى هي المجلات العلمية السهلة. هذه مجلات تدّعي أنها مجلات علمية موثوقة، لكنها في الواقع تقبل أي دراسة. لا مراجعة أقران، لا شيء على الإطلاق. في الواقع، غالبًا ما لا تُقرأ الدراسة اصلا. يدفع المؤلف، وتُنشر الدراسة بكل بساطة.

هذه المجلات تُلوث البحوث العلمية. فهي تسمح “لأي شخص” بنشر دراسة لم يتم التحقق من بياناتها. في عام 2014، نُشر ما يقرب من 420 ألف دراسة في هذا النوع من المجلات.

الأمر المذهل هو أن بعض هذه الدراسات استُشهد بها في أعمال منشورة في مجلات علمية موثوقة. وهكذا يتسرب او يختلط البحث العلمي الرديء إلى الجيد. مشكلةٌ لها اسمٌ مُطلقٌ: وهو تلوث الاستشهادات او تلوث الاقتباس.

من الآثار السلبية للنمو السريع للنشر العلمي مفتوح الوصول، المُموّل برسوم النشر، ظهور ناشرين ومجلات ذات ممارسات ترويج ومراجعة أقران مُشكوك فيها للغاية.'الوصول المفتوح': دراسةٌ طوليةٌ لأحجام المقالات وخصائص السوق

دليلٌ إضافيٌّ على طبيعة هذه المجلات: أجرى باحثون بولنديون تجربةً. ابتكروا شخصية آنا زوست، وهي باحثةٌ بولنديةٌ خيالية. كتبت سيرةً ذاتيةً خياليةً وأرسلتها إلى 120 مجلةً طبيةً في محاولةٍ لتصبح مُحرّرةً. ونتيجةً لذلك، قبلتها 40 مجلةً من هذه المجلات في غضون ساعات.

والأمر الأكثر إثارةً للقلق هو أن ثماني مجلاتٍ تابعةً لدليل مجلات الوصول المفتوح، وهي قاعدة بيانات تُدرج مجلات الوصول المفتوح التي تُعتبر عالية الجودة، قبلتها أيضًا. ولحسن الحظ، لم تُجرّب أيٌّ من المجلات المُدرجة في قاعدة بيانات تقارير استشهادات المجلات، والتي تُعتبر الأكثر شهرةً، هذا الأمر.

يجدر بنا الإشارة إلى أن المجلات الاستغلالية تُعدّ مصدرًا لعمليات احتيال أخرى، مثل مصانع الورق أو مصانع الدراسات الوهمية. مبدأ هذا النظام بسيط: يتصل الباحث بأحد هذه “المصانع”، موضحًا رغبته في الظهور كمؤلف في دراسة حول موضوع من اختياره. يُصنّع المصنع الدراسة حول الموضوع المطلوب، باستخدام بيانات ورسوم بيانية مزيفة – كل ما يلزم لجعلها تبدو وكأنها عمل حقيقي.

تُنشر الدراسة في مجلة استغلالية، لأن المجلة لا تتحقق منها. يمكن للباحث بعد ذلك الإشارة في سيرته الذاتية إلى مشاركته في هذه الدراسة. هذه طريقة لتضخيم سيرته الذاتية بشكل مصطنع، وبالتالي زيادة فرصه في الحصول على تمويل. وتستمر قائمة عيوب النظام العلمي على هذا الشكل.

مراجعة الأقران

يعتبر المجتمع العلمي، وكذلك الصحفيون، على سبيل المثال، مراجعة الأقران مقدسة لإثبات الجودة، إلا أنها في الواقع بعيدة كل البعد عن الكمال. ومثل اداة AMSTAR 2، تعاني من العديد من المشاكل.

مراجعة الأقران هي طريقة تهدف إلى ضمان جودة الدراسة العلمية. وعمليتها بسيطة:

يُقدّم الباحث دراسته إلى مجلة علمية؛

يُرسلها المحرر إلى عدد من الخبراء في مجال الدراسة؛

يُقيّمون الدراسة بشكل مجهول، ثم يُوصون المحرر بقبولها أو مراجعتها أو رفضها؛

تتخذ المجلة العلمية القرار النهائي.

وبهذا تُعدّ هذه الاداة المعيار الذهبي للتحقق العلمي.

عندما يتعلق الأمر بتقييم الأكاديميين والباحثين، فإن معظم الناس لا يملكون – أو لا يرغبون في – قراءة المقالات! وحتى لو فعلوا ذلك، فإن حكمهم سيتأثر بالتأكيد بتعليقات من استشهدوا بهذا العمل.يوجين غارفيلد، مبتكر معامل التأثير

تكمن المشكلة في أنه بينما تُعامل عملية مراجعة الأقران كطريقة موضوعية، إلا أنها ذاتية بطبيعتها، حيث يتم تقييم جودة الدراسة بشكل تعسفي من قِبل عدد قليل من الأشخاص. وكثيرًا ما يختلف المراجعون في الرأي. في الدراسة نفسها، بينما يقترح خبير قبولها، يقترح آخر رفضها. وهذا بحد ذاته دليل على وجود خلل في نظام التقييم.

دعونا نسلط الضوء أيضًا على التحيزات العديدة التي قد تتعرض لها هذه الطريقة:8 جنسية المؤلفين والزملاء الذين يراجعون الدراسة، والمكانة المؤسسية، والجنس، والتخصص، والتحيز التأكيدي، إلخ.

ومن المفارقات أن بعض الدراسات التي رفضتها المجلات العلمية بعد مراجعة الأقران فازت لاحقًا بجائزة نوبل.9

ولكن، هنا أيضًا، كما هو الحال مع اداة AMSTAR 2، فإن مراجعة الأقران متجذرة في آلية عمل البحث العلمي. المشكلة ان المجتمع العلمي بعيد كل البعد عن الاستعداد لإعادة النظر في نفسه. ومع ذلك، دفاعًا عن نفسه، يقول انه لم يجد الباحثون بعد أي نظام آخر يحل محله.

التلاعب بالاستشهادات

تمثل الاستشهادات والاقتباسات مشكلة أخرى. يمكن مقارنتها بـ”العملة” العلمية. عندما ينشر باحث دراسة، يجب عليه الاستشهاد بجميع الأبحاث التي أثرت على دراسته. وبالنسبة للعلماء، تُعد الاستشهادات ذات أهمية خاصة. كلما زاد عدد الاستشهادات حول العالم، زاد تأثيرها وأهمية عملها. على سبيل المثال، يُؤخذ عدد الاستشهادات بعين الاعتبار عند النظر في التوظيف والترقيات وتخصيص التمويل، إلخ.

تُعدّ إمكانية شراء الاستشهادات بالجملة تطورًا جديدًا في المجتمع العلمي وهو امر مثير للقلق.جنيفر بيرن، باحثة في مجال السرطان

لكن للاستشهادات تأثير سلبي: فهي تُحوّل التعاون العلمي إلى منافسة بين الباحثين. يُفضّل بعض العلماء دراسة مجالات مُحددة لسهولة الاستشهاد بها، بينما قد تكون هناك مواضيع أخرى أكثر أهمية.

المشكلة الرئيسية الأخرى للاستشهادات هي أن بعض الأشخاص عديمي الضمير يسمحون بشرائها. 10 يدفع العالم، فيحصل على استشهادات. وبالتالي، يُمكن اعتبار الدراسة قليلة الأهمية، أو الأسوأ من ذلك، ذات الجودة الرديئة، جيدة جدًا لمجرد الاستشهاد بها مرات عديدة. في المجتمع العلمي، نشأت سوق سوداء حقيقية على هذا الأساس.

اختراق الاحتمالية (p-hacking)

أخيرًا، لنتحدث قليلًا عن اختراق الاحتمالية (p-hacking). يشير هذا المصطلح إلى الحرف p الشهير الذي يظهر في جميع الدراسات العلمية. لتبسيط الأمر، لنفترض أنه يُشير إلى احتمال أن تكون نتائج عملية حسابية ناتجة عن الصدفة. في البحث العلمي، غالبًا ما نجد الحرف p مصحوبًا برقم بين 0 و1.

يشير الرقم 1 إلى وجود احتمال 100% أن تكون النتيجة ناتجة عن الصدفة. بمعنى آخر، النتيجة لا قيمة لها لأنها… ناتجة عن الصدفة. على العكس، يشير الرقم 0 إلى أن احتمالية أن تكون النتيجة ناتجة عن الصدفة 0%. في الدراسات العلمية، لكي تُعتبر النتيجة “ذات دلالة إحصائية”، يجب أن تكون قيمة الاحتمالية (p-hacking) أقل من 0.05، وغالبًا ما تُمثل بـ (p < 0.05). أي أن احتمالية أن تكون النتيجة ناتجة عن الصدفة أقل من 5%.

فيما يتعلق باستراتيجيات اختراق الاحتمالية (p-hacking) المختلفة، وجدنا أنه حتى باستخدام استراتيجية واحدة، يُمكن عمومًا زيادة معدلات الإيجابيات في المعلومات الكاذبة إلى ما لا يقل عن 30% فوق عتبة الـ 5% النموذجية، وذلك ببذل “جهد معقول”، أي دون افتراض أن الباحثين يُؤتمتون إجراءات استخراج البيانات.أكاذيب صغيرة ولكن كبيرة : ملخص ومحاكاة لاستراتيجيات اختراق الاحتمالية

وهنا أيضًا، تُشكل مسألة الاحتمالية هذه مشكلة، أو بالأحرى عتبة الـ 5%. اختارها رونالد فيشر في عشرينيات القرن الماضي، دون أي مبرر علمي مُحدد، وهي تُمثل اليوم كابوسًا للعديد من العلماء. ببساطة لأن المجلات العلمية قد ترفض نشر دراسة لا تُعطي نتائجها دلالة إحصائية.

لذلك، يختار بعض العلماء الغش للحصول على هذه القيمة الاحتمالية الشهيرة < 0.05. للقيام بذلك، على سبيل المثال، قد يختارون التوقف عن جمع البيانات بمجرد الوصول إلى عتبة الـ 5%. وقد ينسحبون من الدراسة بعد أن يروا أن قيمة الاحتمالية الخاصة بهم تجاوزت الـ 5%.

اختبار مجموعة كاملة من المتغيرات وعرض فقط تلك ذات القيمة الاحتمالية المنخفضة. أو تقسيم البيانات إلى أجزاء فرعية لدرجة الوصول إلى مستوى هائل من السخافة، مثل: تُظهر بياناتنا أن التدخين الإلكتروني يُسبب بالفعل سرطان الرئة لدى الرجال الذين تتراوح أعمارهم بين 77 و77.5 عامًا، والذين وُلدوا يوم ثلاثاء من السنة الكبيسة، وبرجهم الفلكي هو برج العقرب مع برج الحوت.

وثّقت العديد من الدراسات اختراقات الاحتمالية. 12 على سبيل المثال، اطّلع أحد الباحثين على 100 دراسة في علم النفس نُشرت في مجلات طبية مرموقة مختلفة. أعاد إنتاجها للتحقق من نتائجها. من بينها، أفادت 97 دراسة بقيمة احتمالية أقل من 5%.

الخلاصة: 36 دراسة فقط من أصل 97 دراسة قدّمت نتائج ذات دلالة إحصائية. 13 ومع ذلك، تجدر الإشارة إلى أن المجالات العلمية ليست جميعها عرضة للأخطاء مثل علم النفس.

الإصلاح لا الرفض

في العديد من مجالات البحث، أدى الاستخدام الواسع النطاق لممارسات بحثية مشكوك فيها إلى عرقلة او تخريب مصداقية النتائج العلمية.أكاذيب صغيرة ولكن كبيرة : ملخص ومحاكاة لاستراتيجيات اختراق الاحتمالية

لا تُمثل الأمثلة المذكورة في هذه المقالة قائمة شاملة بجميع التحديات التي تواجه العلماء اليوم. يمكن ذكر أمثلة أخرى، لكن الغرض من هذه المقالة ليس تشويه سمعة عمل الباحثين.

في حين أن جميع هذه الاختلالات موجودة، فإن البحث العلمي ليس محكومًا عليه بالفشل، ولا يزال أفضل أداة لفهم العالم من حولنا.

يجدر الإشارة أيضًا إلى ظهور بعض المبادرات. ١٢ التسجيل المسبق لبروتوكولات الدراسة، والمشاركة الإلزامية للبيانات الخام المستخدمة، ومحاولات تطوير أدوات تقييم أخرى (والتي ستكون أكثر ملاءمة من AMSTAR 2، على سبيل المثال)، إلخ.

اليوم، لا تكمن المشكلة في الجهل بالعيوب البحثية، بل في طريقة معالجتها، ولنكن صريحين، العامل الاهم هو مقاومة التغيير.

هل يجب أن نرفض البحث العلمي؟ لا. لكن هذه الاكتشافات تدعو إلى قراءة أكثر نقدًا للدراسات، لا سيما في المجالات المثيرة للجدل كموضوع السجائر الإلكترونية. بين الاستنتاجات التعميمية والشك الأعمى، ثمة طريق: طريق العلم المُدرك لحدوده.

نكشف أوجه القصور في الأبحاث العلمية، وطرق التقييم المستخدمة، وتسليط الضوء على تناقض الدراسات حول السجائر الإلكترونية.

المصادر :

¹ Golder S, Hartwell G, Barnett LM, et alVaping and harm in young people: umbrella reviewTobacco Control Published Online First: 19 August 2025. https://doi.org/10.1136/tc-2024-059219.

² Bojcic, R., Todoric, M., & Puljak, L. (2024). Most systematic reviews reporting adherence to AMSTAR 2 had critically low methodological quality: a cross-sectional meta-research study. Journal of Clinical Epidemiology, 165, 111210. https://doi.org/10.1016/j.jclinepi.2023.10.026.

³ Rotta, I., Diniz, J. A., & Fernandez-Llimos, F. (2025). Assessing methodological quality of systematic reviews with meta-analysis about clinical pharmacy services: A sensitivity analysis of AMSTAR-2. Research in Social and Administrative Pharmacy, 21(2), 110–115. https://doi.org/10.1016/j.sapharm.2024.11.002.

⁴ Puljak, L., Bala, M. M., Mathes, T., Poklepovic Pericic, T., Wegewitz, U., Faggion, C. M., Matthias, K., Storman, D., Zajac, J., Rombey, T., Bruschettini, M., & Pieper, D. (2023). AMSTAR 2 is only partially applicable to systematic reviews of non-intervention studies: a meta-research study. Journal of Clinical Epidemiology, 163, 11–20. https://doi.org/10.1016/j.jclinepi.2023.08.021.

⁵ Paulus, F. M., Cruz, N., & Krach, S. (2018). The Impact Factor Fallacy. Frontiers in Psychology, 9. https://doi.org/10.3389/fpsyg.2018.01487.

⁶ Shen, C., Björk, BC. ‘Predatory’ open access: a longitudinal study of article volumes and market characteristics. BMC Med 13, 230 (2015). https://doi.org/10.1186/s12916-015-0469-2.

⁷ Sorokowski, P., Kulczycki, E., Sorokowska, A. et al. Predatory journals recruit fake editor. Nature 543, 481–483 (2017). https://doi.org/10.1038/543481a.

⁸ Smith, R. (2006). Peer review: a flawed process at the heart of science and journals. Journal of the Royal Society of Medicine, 99(4), 178–182. https://doi.org/10.1258/jrsm.99.4.178.

⁹ MacDonald, F. ScienceAlert. (2016, August 19). 8 Scientific Papers That Were Rejected Before Going on to Win a Nobel Prize. ScienceAlert. https://www.sciencealert.com/these-8-papers-were-rejected-before-going-on-to-win-the-nobel-prize.

¹⁰ Langin, K. (2024, February 26). Vendor offering citations for purchase is latest bad actor in scholarly publishing. Science. https://www.science.org/content/article/vendor-offering-citations-purchase-latest-bad-actor-scholarly-publishing.

¹¹ Biau, D. J., Jolles, B. M., & Porcher, R. (2010). P value and the theory of hypothesis testing: an explanation for new researchers. Clinical orthopaedics and related research, 468(3), 885–892. https://doi.org/10.1007/s11999-009-1164-4.

¹² Stefan, A. M., & Schönbrodt, F. D. (2023). Big little lies: a compendium and simulation of p-hacking strategies. Royal Society Open Science, 10(2), 220346. https://doi.org/10.1098/rsos.220346.

¹³ Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/10.1126/science.aac4716.