📊 الخطأ رقم 1 في التفكير الإحصائي
تقرأ في الجريدة: « الأشخاص الذين يشربون القهوة يعيشون 5 سنوات أطول في المتوسط. الاستنتاج: شرب القهوة يجعلك تعيش أطول.»
توقف. هذا الاستنتاج خاطئ على الأرجح، والخطأ يُسمى: الخلط بين الارتباط والسببية. يمكن لظاهرتين أن تتطورا معًا (ارتباط) دون أن تكون إحداهما سببًا للأخرى (سببية).
🎛️ ثلاثة متغيرات، ارتباطات غريبة
حرّك المؤشر لعرض ارتباطات مختلفة (حقيقية وموثقة). لا شيء منها سببي.
🎛️ ارتباطات سخيفة (لكنها حقيقية)
المصدر: tylervigen.com/spurious-correlations
معامل الارتباط r
+0.66
ارتباط إيجابي قوي… لكن من الواضح أنه لا توجد سببية.
📐 معامل الارتباط
معامل الارتباط الخطي r (بيرسون) يقيس قوة واتجاه علاقة خطية بين متغيرين:
- r = +1: ارتباط إيجابي تام (y يزداد مع x)
- r = 0: لا يوجد أي ارتباط خطي
- r = −1: ارتباط سلبي تام (y ينقص عندما يزداد x)
- |r| > 0,7: ارتباط قوي (لكنه مع ذلك ليس سببيًا بالضرورة)
🔄 التفسيرات الأربعة الممكنة لارتباط ما
إذا كان A و B مرتبطين، فهناك 4 تفسيرات ممكنة على الأقل:
- A يسبب B (سببية مباشرة)
- B يسبب A (سببية عكسية — كثيرًا ما تُنسى!)
- متغير ثالث C يسبب الاثنين معًا (متغير مُربك)
- مجرد صدفة (تصادف إحصائي دون رابط)
استخلاص النتيجة « A يسبب B» دون استبعاد التفسيرات الثلاثة الأخرى، هو الخطأ الإحصائي الكبير.
☕ حالة القهوة وطول العمر
لنعد إلى المثال. الأشخاص الذين يشربون القهوة يعيشون أطول. لماذا؟ ليس بالضرورة بسبب القهوة:
- السببية العكسية: ربما أن الأشخاص الأكثر صحة هم من يستطيعون تحمل شرب القهوة (المرضى لديهم موانع استعمال)
- متغير مُربك: استهلاك القهوة أعلى لدى الفئات الاجتماعية الميسورة، التي لديها أيضًا وصول إلى رعاية صحية أفضل ← الصحة ناتجة عن الرعاية، وليس عن القهوة
- صدفة: ربما أن الدراسة وجدت رابطًا عرضيًا لا يتكرر على عينة أخرى
🧪 كيف نُثبت السببية؟
لإثبات A ← B، نحتاج إلى تجربة عشوائية مُحكمة:
- تجنيد عدد كبير من الأشخاص
- اختيار من يشرب القهوة ومن لا يشربها عن طريق القرعة (مجموعات متكافئة)
- المتابعة لمدة 20 سنة
- مقارنة آمال الحياة
القرعة تستبعد السببية العكسية والمتغيرات المُربكة. إنها المعيار الذهبي في الطب، لكنها مكلفة وطويلة. أغلب الدراسات المنشورة هي دراسات رصدية — أسهل بكثير، لكنها عرضة لفخ « الارتباط ≠ السببية».
🚨 العواقب الحقيقية لهذا الخطأ
🎓 في برنامج البكالوريا علوم رياضية
- معامل الارتباط الخطي r (صيغة بيرسون)
- مستقيم الانحدار الخطي بطريقة المربعات الصغرى
- معامل التحديد R²: نسبة التباين المُفسَّر
- مجال الثقة والدلالة الإحصائية
- اختبار الفرضية: رفض أو عدم رفض فرضية صفرية
🧠 تأمل أخير
هذا المفهوم هو على الأرجح الأكثر فائدة في الأطلس في الحياة اليومية. سترى عشرات الدراسات المزعومة كل شهر: « الأشخاص الذين يفعلون X يعيشون أطول»، « من يشربون Y أكثر سعادة»، إلخ. تعلّم أن تسأل بشكل منهجي:
- هل هي دراسة عشوائية أم رصدية؟
- ما الذي يمكن أن يكون المتغير المُربك؟
- ألا يمكن أن تكون السببية عكسية؟
هذا الانضباط الذهني هو ما يُميز العقل العلمي عن المستهلك السلبي للمعلومات. في البكالوريا علوم رياضية، يجعلك تكسب نقاطًا في الإحصاء. في الحياة، يجعلك تكسب سنوات.