Correlation ไม่เท่ากับ Causation! เข้าใจโมเดลเชิงสาเหตุแบบง่าย ๆ

Causal Modeling คืออะไร?
Causal Modeling คือกระบวนการวิเคราะห์เพื่อหาว่า “อะไรเป็นเหตุ” และ “อะไรเป็นผล” ในข้อมูล เช่น แทนที่จะดูแค่ว่าปัจจัย A กับ B มีความสัมพันธ์กันไหม (correlation) เราต้องการรู้ว่า A ทำให้เกิด B หรือเปล่า (causation)
ตัวอย่างง่าย ๆ [🍦vs ☀️]
- Correlation: พบว่าคนที่กินไอศกรีมบ่อย มีโอกาสจมน้ำมากขึ้น
แต่จริง ๆ แล้วไม่ใช่ไอศกรีมที่ทำให้คนจมน้ำ — เพราะทั้งสองอย่างมักเกิดในฤดูร้อน
(คือมีปัจจัยร่วมที่ชื่อว่า “ฤดูร้อน” หรือ confounder) - Causal Thinking: ต้องถามว่า “ถ้าคนไม่กินไอศกรีม จะมีผลต่อโอกาสจมน้ำหรือไม่?”
ถ้าไม่มี = ไอศกรีมไม่ใช่สาเหตุ
Causal Modeling ต่างจาก Machine Learning ยังไง?
หัวข้อ |
Machine Learning |
Causal Modeling |
เป้าหมาย |
ทำนายผลลัพธ์จากข้อมูล |
หาเหตุและผล |
ความสัมพันธ์ |
สนใจความสัมพันธ์ (correlation) |
สนใจสาเหตุ (causation) |
ตัวอย่างคำถาม |
“ลูกค้าคนนี้จะซื้อสินค้าหรือไม่?” |
“การลดราคา ทำให้ยอดขายเพิ่มจริงไหม?” |
เทคนิคที่ใช้ใน Causal Modeling
- Randomized Controlled Trials (RCT)
- การทดลองแบบควบคุม เช่น ทดลองให้กลุ่มหนึ่งได้เห็นโฆษณา อีกกลุ่มไม่เห็น
- ดูผลต่างของพฤติกรรมเพื่อสรุปว่า “โฆษณามีผลจริงหรือไม่”
- Causal Graphs (เช่น DAG: Directed Acyclic Graph)
- ใช้แผนภาพเชื่อมโยงระหว่างตัวแปร เพื่อดูความสัมพันธ์เชิงสาเหตุ
- เช่น A → B → C แปลว่า A ส่งผลต่อ B แล้วส่งผลต่อ C
- Do-Calculus (จากงานของ Judea Pearl)
- ใช้เพื่อจำลองสถานการณ์ “ถ้าทำสิ่งนี้ จะเกิดอะไรขึ้น”
- เช่น “ถ้าเราลดราคา จะทำให้ยอดขายเพิ่มขึ้นไหม?”
- Propensity Score Matching / Instrumental Variables
- ใช้ในกรณีที่ไม่สามารถทำการทดลองได้ เช่นในธุรกิจจริง
- หาวิธีปรับข้อมูลให้เหมือนกับการทดลองแบบสุ่ม
สรุป
- Causal Modeling คือเครื่องมือวิเคราะห์ “เหตุและผล” ไม่ใช่แค่ความสัมพันธ์
- สำคัญมากในโลกธุรกิจและนโยบาย เช่น “แคมเปญนี้ทำให้ยอดขายเพิ่มขึ้นจริงหรือเปล่า?”
- แตกต่างจากการทำนาย เพราะเน้น ความเข้าใจเชิงลึก เพื่อช่วยตัดสินใจอย่างถูกต้อง
Blog นี้ เขียน ✍🏼 ร่วมกับ ChatGPT โดยใช้ Prompt
หากคุณเป็นนักวิทยาศาสตร์ข้อมูล ช่วยอธิบาย Casual Modeling ใน Data Science ให้เข้าใจแบบง่ายๆด้วยครับ