Correlation ไม่เท่ากับ Causation! เข้าใจโมเดลเชิงสาเหตุแบบง่าย ๆ

Correlation ไม่เท่ากับ Causation! เข้าใจโมเดลเชิงสาเหตุแบบง่าย ๆ
By ChatGPT

Causal Modeling คืออะไร?

Causal Modeling คือกระบวนการวิเคราะห์เพื่อหาว่า “อะไรเป็นเหตุ” และ “อะไรเป็นผล” ในข้อมูล เช่น แทนที่จะดูแค่ว่าปัจจัย A กับ B มีความสัมพันธ์กันไหม (correlation) เราต้องการรู้ว่า A ทำให้เกิด B หรือเปล่า (causation)

ตัวอย่างง่าย ๆ [🍦vs ☀️]

  • Correlation: พบว่าคนที่กินไอศกรีมบ่อย มีโอกาสจมน้ำมากขึ้น
    แต่จริง ๆ แล้วไม่ใช่ไอศกรีมที่ทำให้คนจมน้ำ — เพราะทั้งสองอย่างมักเกิดในฤดูร้อน
    (คือมีปัจจัยร่วมที่ชื่อว่า “ฤดูร้อน” หรือ confounder)
  • Causal Thinking: ต้องถามว่า “ถ้าคนไม่กินไอศกรีม จะมีผลต่อโอกาสจมน้ำหรือไม่?”
    ถ้าไม่มี = ไอศกรีมไม่ใช่สาเหตุ

Causal Modeling ต่างจาก Machine Learning ยังไง?

หัวข้อ

Machine Learning

Causal Modeling

เป้าหมาย

ทำนายผลลัพธ์จากข้อมูล

หาเหตุและผล

ความสัมพันธ์

สนใจความสัมพันธ์ (correlation)

สนใจสาเหตุ (causation)

ตัวอย่างคำถาม

“ลูกค้าคนนี้จะซื้อสินค้าหรือไม่?”

“การลดราคา ทำให้ยอดขายเพิ่มจริงไหม?”

เทคนิคที่ใช้ใน Causal Modeling

  1. Randomized Controlled Trials (RCT)
    • การทดลองแบบควบคุม เช่น ทดลองให้กลุ่มหนึ่งได้เห็นโฆษณา อีกกลุ่มไม่เห็น
    • ดูผลต่างของพฤติกรรมเพื่อสรุปว่า “โฆษณามีผลจริงหรือไม่”
  2. Causal Graphs (เช่น DAG: Directed Acyclic Graph)
    • ใช้แผนภาพเชื่อมโยงระหว่างตัวแปร เพื่อดูความสัมพันธ์เชิงสาเหตุ
    • เช่น A → B → C แปลว่า A ส่งผลต่อ B แล้วส่งผลต่อ C
  3. Do-Calculus (จากงานของ Judea Pearl)
    • ใช้เพื่อจำลองสถานการณ์ “ถ้าทำสิ่งนี้ จะเกิดอะไรขึ้น”
    • เช่น “ถ้าเราลดราคา จะทำให้ยอดขายเพิ่มขึ้นไหม?”
  4. Propensity Score Matching / Instrumental Variables
    • ใช้ในกรณีที่ไม่สามารถทำการทดลองได้ เช่นในธุรกิจจริง
    • หาวิธีปรับข้อมูลให้เหมือนกับการทดลองแบบสุ่ม

สรุป

  • Causal Modeling คือเครื่องมือวิเคราะห์ “เหตุและผล” ไม่ใช่แค่ความสัมพันธ์
  • สำคัญมากในโลกธุรกิจและนโยบาย เช่น “แคมเปญนี้ทำให้ยอดขายเพิ่มขึ้นจริงหรือเปล่า?”
  • แตกต่างจากการทำนาย เพราะเน้น ความเข้าใจเชิงลึก เพื่อช่วยตัดสินใจอย่างถูกต้อง

Blog นี้ เขียน ✍🏼 ร่วมกับ ChatGPT โดยใช้ Prompt

หากคุณเป็นนักวิทยาศาสตร์ข้อมูล ช่วยอธิบาย Casual Modeling ใน Data Science ให้เข้าใจแบบง่ายๆด้วยครับ