Association Rules ทำงานอย่างไร?

Association Rules ทำงานอย่างไร?
Photo by Hanson Lu on Unsplash
Association Rules ถูกใช้บ่อยในการวิเคราะห์สินค้าที่ซื้อคู่กัน ตัวอย่างเช่น Apiori Algorithm
  • ลูกค้าที่ไป Supermarket มักมีรายการสิ่งที่ต้องซื้อเป็นมาตรฐาน แต่ละคนมีรายการที่แตกต่างกัน ขึ้นอยู่กับความต้องการและความชอบของแต่ละคน
  • แม่บ้าน 🧓🏻 อาจซื้อวัตถุดิบที่คำนึงถึงสุขภาพสำหรับมื้อค่ำของครอบครัว ในขณะที่คนโสด 🙎🏻‍♂️ อาจซื้อเบียร์และมันฝรั่งทอด
  • การทำความเข้าใจ Patterns การซื้อเหล่านี้ สามารถช่วยเพิ่มยอดขายได้ หากมีสินค้าคู่ X และ Y ที่มักซื้อพร้อมกัน คนที่ซื้อ X แต่ไม่เคยซื้อ Y เราอาจแนะนำ Y ให้ได้ (เรียกว่า การขายข้าม Products “Cross-selling”)
มีประโยชน์ในการสนับสนุนการขาย 📈
  • สามารถวาง X และ Y ไว้บนชั้นวางเดียวกันได้ เพื่อให้ผู้ซื้อสินค้าชิ้นหนึ่ง ซื้ออีกชิ้นได้สะดวกขึ้น
  • ส่วนลดส่งเสริมการขายสามารถใช้ได้กับสินค้าเพียงหนึ่งในสองรายการ
  • โฆษณาบน X อาจกำหนดเป้าหมายไปที่ผู้ซื้อที่ซื้อ Y
  • X และ Y สามารถรวมกันเป็นผลิตภัณฑ์ใหม่ได้ เช่น มี Y ในรสชาติของ X
นิยาม 📒
  • การวิเคราะห์ Association Rules เป็นเทคนิคที่ทำให้รู้ว่า Items ต่างๆ มีความเกี่ยวข้องกันอย่างไร มี 3 วิธี ในการวัดความสัมพันธ์ (Association)
Photo by Tara Clark on Unsplash

1. Support - ค่านี้บอกว่า Itemset ได้รับความนิยมมากเพียงใด โดยวัดจากสัดส่วนของ Transactions ที่ Itemset ปรากฏ แสดงดังตารางที่ 1

  • Support ของ {chips} คือ 4 จาก 8 หรือ 50% .. มี 4 จาก 8 Transactions
  • Support ของ {chips, beer, rice} คือ 2 ใน 8 หรือ 25%

$$\textrm{Support}\lbrack🍟\rbrack= \frac{4}{8}$$

ตารางที่ 1

Transaction Items
#1 🍟 🍺 🍚 🥩
#2 🍟 🍺 🍚
#3 🍟 🍺
#4 🍟 🍓
#5 🥛 🍺 🍚 🥩
#6 🥛 🍺 🍚
#7 🥛 🍺
#8 🥛 🍓

หากพบว่าการขายสินค้าเกินสัดส่วนที่กำหนดมีแนวโน้มที่จะส่งผลกระทบต่อผลกำไร เราอาจพิจารณาใช้สัดส่วนนั้นจากค่า Support เพื่อระบุ Items ที่เกินกว่าค่า Threshold

2. Confidence - ค่านี้บอกว่ามีโอกาสซื้อสินค้า Y มากน้อยเพียงใดเมื่อซื้อสินค้า X ซึ่งแสดงเป็น {X -> Y} ซึ่งวัดจากสัดส่วนของ Transactions กับรายการ X ซึ่งรายการ Y ก็ปรากฏอยู่ด้วย ในตารางที่ 1 ค่า Confidence ของ {chips -> beer} คือ 3 ใน 4 หรือ 75%

$$\textrm{Confidence}\lbrack🍟 \rightarrow 🍺 \rbrack= \frac{\textrm{Support}\lbrack🍟,🍺\rbrack}{\textrm{Support}\lbrack🍟\rbrack}$$

Note - Support ของ {chips, beer} คือ 3 ใน 8

ข้อเสียอันหนึ่งของ Confidence คือ อาจบิดเบือนความสำคัญของการเชื่อมโยง เพราะในที่นี้อธิบายถึงความนิยมของมันฝรั่งเท่านั้น แต่ไม่ใช่เบียร์ หากโดยทั่วไปแล้วเบียร์เป็นที่นิยมมาก จะมีโอกาสสูงที่ Transactions ที่มีมันฝรั่ง จะมีเบียร์อยู่ด้วย ซึ่งจะทำให้ค่า Confidence สูงเกินจริง เพื่อพิจารณาความนิยมพื้นฐานของทั้ง 2 Items จึงมีการวัดแบบที่ 3 เรียกว่า "Lift"

3. Lift - ค่านี้บอกว่ามีแนวโน้มว่าจะซื้อสินค้า Y มากน้อยเพียงใดเมื่อซื้อสินค้า X ในขณะที่ควบคุมความนิยมของสินค้า Y ในตารางที่ 1 ค่า Lift ของ {chips -> beer} คือ 1 ซึ่งหมายความว่าไม่มี Association ระหว่าง Items

  • ค่าที่มากกว่า 1 หมายความว่า มีแนวโน้มว่าจะซื้อสินค้า Y หากซื้อสินค้า X
  • ค่าที่น้อยกว่า 1 หมายความว่า ไม่น่าจะซื้อสินค้า Y หากซื้อสินค้า X

$$\textrm{Lift}\lbrack🍟 \rightarrow 🍺 \rbrack= \frac{\textrm{Support}\lbrack🍟,🍺\rbrack}{\textrm{Support}\lbrack🍟\rbrack \times \textrm{Support}\lbrack🍺\rbrack}$$

Note - Support ของ {beer} คือ 6 ใน 8

******

ข้อมูลอ้างอิง - https://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-tutorial.html