5 คุณลักษณะ ของ Data Quality

5 คุณลักษณะ ของ Data Quality
Photo by Christina Morillo


โดยปกติ ในการวิเคราะห์ข้อมูล (หรือ การเตรียมข้อมูลเพื่อทำ Data Science Models) มีวัตถุประสงค์ เพื่อช่วยสนับสนุนการตัดสินใจทางธุรกิจ ให้การตัดสินใจนั้น ทำได้อย่างมั่นใจ และมีประสิทธิภาพ จำเป็นต้องใช้ข้อมูลที่มีคุณภาพ ปราศจากข้อผิดพลาด มี 5 คุณลักษณะที่ควรพิจารณา ดังนี้

🗑️ Garbage in, garbage out. ~ การนำเข้าข้อมูลขยะ ผลลัพธ์ย่อมเป็นขยะ
Photo by Hasan Albari

1) Accuracy (ความถูกต้อง) เช่น ต้องทำการ Remove Duplicated Data, จัดการกับ Data Format ให้ถูกต้อง, นำข้อมูล Row ที่ว่าง (Null) ออก

Photo by Ann H

2) Completeness (ความสมบูรณ์) เช่น ต้องการหายอดขายทั่วประเทศ แต่พบว่าข้อมูลยอดขายบางจังหวัดหายไปถือว่า ขาดความสมบูรณ์ อาจต้องพิจารณาว่ามีข้อมูลที่แหล่งอื่นๆ หรือไม่

Photo by ThisIsEngineering

3) Reliability (ความน่าเชื่อถือได้) เช่น ต้องหายอดขายของ Sales แต่ละคน แต่พบว่า Sales บางคนยังไม่ได้ Updated เข้าสู่ระบบ Database

Photo by Walls.io

4) Relevant (ความเกี่ยวข้อง) กล่าวคือ ข้อมูลที่นำมาใช้ มีความเกี่ยวข้องกับโครงการ (หรือปัญหาธุรกิจ) ที่กำลังทำอยู่หรือไม่? เช่น การพิจารณายอดขายและ Performance ของ Sales แต่ละคน ข้อมูลส่วนตัวของลูกค้าอาจไม่จำเป็น

Photo by Mike

5) Timeliness (ทันเวลา) เช่น ต้องการความถี่ในการ Update รายงานยอด Sales ทุกสัปดาห์ แต่พบว่ายังเป็นการ Update รายเดือน ถือว่าไม่มีคุณลักษณะ Timeliness

******
ข้อมูลอ้างอิง - คอร์ส Excel Basics for Data Analysis by IBM บน Coursera https://www.coursera.org/learn/excel-basics-data-analysis-ibm