26 พฤษภาคม 2559

Data Quality in Data Warehouse


วันนี้ได้มีโอกาสคุยกับ CIO เกี่ยวกับเรื่องการทำระบบ Customer Relationship Management (CRM) ของธนาคาร ซึ่งหัวข้อการสนทนารวมไปถึงการได้มาของข้อมูล ความถูกต้องของข้อมูล การใช้ขัอมูลแบบ Big Data รวมถึงมาตรฐานเกี่ยวกับประเภทข้อมูล

สิ่งที่ได้รับจากการสนทนาพบว่าตัวเองมองข้อมูลใน Data Warehouse ไม่ครบทุกมุมมอง เนื่องจากไม่ได้อยู่ใน Financial Sector มาก่อนหน้านี้เลยมอง Data Warehouse เพียงเพื่อตอบสนองความต้องการข้อมูลเพื่อไปใช้ในเชิงการตลาดและ CRM แต่เพียงอย่างเดียว ซึ่งข้อมูลที่ใช้เชิงนี้ไม่ได้ต้องการความแม่นยำของข้อมูล (Precision) ในระดับที่สูง เพียงแค่ต้องการความครบถ้วนเพื่อใช้ในการวิเคราะห์ตามสมมติฐานทางการตลาดที่ตั้งขึ้น หรือหา Insight

แต่ข้อมูลใน Data Warehouse ของ Financial Sector ต้องการความแม่นยำของข้อมูลที่สูงเพื่อนำไปใช้ตามกฏระเบียบ (Regulation) ด้วย เช่น Basel, SOX เป็นต้น อย่างไรก็ตามข้อมูลชุดนี้ก็นำไปวิเคราะห์ในเชิงการตลาดด้วยเช่นพวก Financial Transaction เป็นต้น

ปัญหาของ Data Quality ใน Data Warehouse จึงอยู่ที่ว่าผู้ที่ดูแลข้อมูลให้ครบถ้วนมักจะโอนเอียงไปด้านใดด้านหนึ่งคือ เพื่อ Regulation หรือเพื่อ Analytic หายากมากที่จะคำนึงถึงข้อมูลที่ตอบสนองต่อทั้งสองด้านได้ไปพร้อมๆ กัน ในสถาบันการเงินส่วนใหญ่จึงมุ่งไปทำให้ Data Quality เกิดขึ้นเพื่อด้าน Regulation

ถ้าอย่างนั้นแล้วข้อมูลที่ใช้สำหรับทำ Data Analytic ทางสถาบันการเงินจะเตรียมข้อมูลที่มีคุณภาพเข้าสู่ Data Warehouse อย่างไร สำหรับสถาบันการเงินที่มีงบประมาณในการทำ Data Warehouse มากก็คงกวาดเอาข้อมูลให้มีประเภทของข้อมูลเข้าไปมากที่สุดไว้ก่อน มีคุณภาพหรือไม่ว่ากันทีหลัง แต่สำหรับสถาบันการเงินที่ไม่ได้มีงบประมาณมากขนาดนั้นคงต้องคัดกรองประเภทและคุณภาพของข้อมูลเพื่อให้การวิเคราะห์ทำได้ดีที่สุด

ความยากคงอยู่ที่ข้อมูลประเภทใด Field ไหน Transform อย่างไรที่ควรเข้าไปอยู่ใน Data Warehouse อย่างมีคุณภาพในสภาพที่มีทรัพยากรจำกัดเพื่อการวิเคราะห์ได้เกิดประโยชน์สูงสุด