Association Rules ทำงานอย่างไร?
Association Rules ถูกใช้บ่อยในการวิเคราะห์สินค้าที่ซื้อคู่กัน ตัวอย่างเช่น Apiori Algorithm
- ลูกค้าที่ไป Supermarket มักมีรายการสิ่งที่ต้องซื้อเป็นมาตรฐาน แต่ละคนมีรายการที่แตกต่างกัน ขึ้นอยู่กับความต้องการและความชอบของแต่ละคน
- แม่บ้าน 🧓🏻 อาจซื้อวัตถุดิบที่คำนึงถึงสุขภาพสำหรับมื้อค่ำของครอบครัว ในขณะที่คนโสด 🙎🏻♂️ อาจซื้อเบียร์และมันฝรั่งทอด
- การทำความเข้าใจ Patterns การซื้อเหล่านี้ สามารถช่วยเพิ่มยอดขายได้ หากมีสินค้าคู่ X และ Y ที่มักซื้อพร้อมกัน คนที่ซื้อ X แต่ไม่เคยซื้อ Y เราอาจแนะนำ Y ให้ได้ (เรียกว่า การขายข้าม Products “Cross-selling”)
มีประโยชน์ในการสนับสนุนการขาย 📈
- สามารถวาง X และ Y ไว้บนชั้นวางเดียวกันได้ เพื่อให้ผู้ซื้อสินค้าชิ้นหนึ่ง ซื้ออีกชิ้นได้สะดวกขึ้น
- ส่วนลดส่งเสริมการขายสามารถใช้ได้กับสินค้าเพียงหนึ่งในสองรายการ
- โฆษณาบน X อาจกำหนดเป้าหมายไปที่ผู้ซื้อที่ซื้อ Y
- X และ Y สามารถรวมกันเป็นผลิตภัณฑ์ใหม่ได้ เช่น มี Y ในรสชาติของ X
นิยาม 📒
- การวิเคราะห์ Association Rules เป็นเทคนิคที่ทำให้รู้ว่า Items ต่างๆ มีความเกี่ยวข้องกันอย่างไร มี 3 วิธี ในการวัดความสัมพันธ์ (Association)
1. Support - ค่านี้บอกว่า Itemset ได้รับความนิยมมากเพียงใด โดยวัดจากสัดส่วนของ Transactions ที่ Itemset ปรากฏ แสดงดังตารางที่ 1
- Support ของ {chips} คือ 4 จาก 8 หรือ 50% .. มี 4 จาก 8 Transactions
- Support ของ {chips, beer, rice} คือ 2 ใน 8 หรือ 25%
$$\textrm{Support}\lbrack🍟\rbrack= \frac{4}{8}$$
ตารางที่ 1
Transaction | Items |
---|---|
#1 | 🍟 🍺 🍚 🥩 |
#2 | 🍟 🍺 🍚 |
#3 | 🍟 🍺 |
#4 | 🍟 🍓 |
#5 | 🥛 🍺 🍚 🥩 |
#6 | 🥛 🍺 🍚 |
#7 | 🥛 🍺 |
#8 | 🥛 🍓 |
หากพบว่าการขายสินค้าเกินสัดส่วนที่กำหนดมีแนวโน้มที่จะส่งผลกระทบต่อผลกำไร เราอาจพิจารณาใช้สัดส่วนนั้นจากค่า Support เพื่อระบุ Items ที่เกินกว่าค่า Threshold
2. Confidence - ค่านี้บอกว่ามีโอกาสซื้อสินค้า Y มากน้อยเพียงใดเมื่อซื้อสินค้า X ซึ่งแสดงเป็น {X -> Y} ซึ่งวัดจากสัดส่วนของ Transactions กับรายการ X ซึ่งรายการ Y ก็ปรากฏอยู่ด้วย ในตารางที่ 1 ค่า Confidence ของ {chips -> beer} คือ 3 ใน 4 หรือ 75%
$$\textrm{Confidence}\lbrack🍟 \rightarrow 🍺 \rbrack= \frac{\textrm{Support}\lbrack🍟,🍺\rbrack}{\textrm{Support}\lbrack🍟\rbrack}$$
Note - Support ของ {chips, beer} คือ 3 ใน 8
ข้อเสียอันหนึ่งของ Confidence คือ อาจบิดเบือนความสำคัญของการเชื่อมโยง เพราะในที่นี้อธิบายถึงความนิยมของมันฝรั่งเท่านั้น แต่ไม่ใช่เบียร์ หากโดยทั่วไปแล้วเบียร์เป็นที่นิยมมาก จะมีโอกาสสูงที่ Transactions ที่มีมันฝรั่ง จะมีเบียร์อยู่ด้วย ซึ่งจะทำให้ค่า Confidence สูงเกินจริง เพื่อพิจารณาความนิยมพื้นฐานของทั้ง 2 Items จึงมีการวัดแบบที่ 3 เรียกว่า "Lift"
3. Lift - ค่านี้บอกว่ามีแนวโน้มว่าจะซื้อสินค้า Y มากน้อยเพียงใดเมื่อซื้อสินค้า X ในขณะที่ควบคุมความนิยมของสินค้า Y ในตารางที่ 1 ค่า Lift ของ {chips -> beer} คือ 1 ซึ่งหมายความว่าไม่มี Association ระหว่าง Items
- ค่าที่มากกว่า 1 หมายความว่า มีแนวโน้มว่าจะซื้อสินค้า Y หากซื้อสินค้า X
- ค่าที่น้อยกว่า 1 หมายความว่า ไม่น่าจะซื้อสินค้า Y หากซื้อสินค้า X
$$\textrm{Lift}\lbrack🍟 \rightarrow 🍺 \rbrack= \frac{\textrm{Support}\lbrack🍟,🍺\rbrack}{\textrm{Support}\lbrack🍟\rbrack \times \textrm{Support}\lbrack🍺\rbrack}$$
Note - Support ของ {beer} คือ 6 ใน 8
******
ข้อมูลอ้างอิง - https://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-tutorial.html