5 คุณลักษณะ ของ Data Quality

โดยปกติ ในการวิเคราะห์ข้อมูล (หรือ การเตรียมข้อมูลเพื่อทำ Data Science Models) มีวัตถุประสงค์ เพื่อช่วยสนับสนุนการตัดสินใจทางธุรกิจ ให้การตัดสินใจนั้น ทำได้อย่างมั่นใจ และมีประสิทธิภาพ จำเป็นต้องใช้ข้อมูลที่มีคุณภาพ ปราศจากข้อผิดพลาด มี 5 คุณลักษณะที่ควรพิจารณา ดังนี้
🗑️ Garbage in, garbage out. ~ การนำเข้าข้อมูลขยะ ผลลัพธ์ย่อมเป็นขยะ

1) Accuracy (ความถูกต้อง) เช่น ต้องทำการ Remove Duplicated Data, จัดการกับ Data Format ให้ถูกต้อง, นำข้อมูล Row ที่ว่าง (Null) ออก

2) Completeness (ความสมบูรณ์) เช่น ต้องการหายอดขายทั่วประเทศ แต่พบว่าข้อมูลยอดขายบางจังหวัดหายไปถือว่า ขาดความสมบูรณ์ อาจต้องพิจารณาว่ามีข้อมูลที่แหล่งอื่นๆ หรือไม่

3) Reliability (ความน่าเชื่อถือได้) เช่น ต้องหายอดขายของ Sales แต่ละคน แต่พบว่า Sales บางคนยังไม่ได้ Updated เข้าสู่ระบบ Database

4) Relevant (ความเกี่ยวข้อง) กล่าวคือ ข้อมูลที่นำมาใช้ มีความเกี่ยวข้องกับโครงการ (หรือปัญหาธุรกิจ) ที่กำลังทำอยู่หรือไม่? เช่น การพิจารณายอดขายและ Performance ของ Sales แต่ละคน ข้อมูลส่วนตัวของลูกค้าอาจไม่จำเป็น

5) Timeliness (ทันเวลา) เช่น ต้องการความถี่ในการ Update รายงานยอด Sales ทุกสัปดาห์ แต่พบว่ายังเป็นการ Update รายเดือน ถือว่าไม่มีคุณลักษณะ Timeliness
******
ข้อมูลอ้างอิง - คอร์ส Excel Basics for Data Analysis by IBM บน Coursera https://www.coursera.org/learn/excel-basics-data-analysis-ibm