การทำ Data Clean ข้อมูลหนังสือในฐานข้อมูลทรัพยากรสารสนเทศ

การทำ Data Clean เป็นภาระหน้าที่หลักอย่างหนึ่งในการปฏิบัติงาน ซึ่งได้ปฏิบัติงานมา 3-4 รอบประเมินแล้ว จำนวนที่ใช้ในการประเมินที่เกณฑ์ 3 ซึ่งถือว่เป็นเกณฑ์ปกติคือ มากกว่า 2500 รายการ (ในรอบ 6 เดือน) และต้องมีการรวบรวมข้อผิดพลาดที่ตรวจพบ และตัวอย่าง แนบไปกับรายงานการปฏิบัติงานทุกเดือน
Data Clean หรือ Data cleansing หรือ data cleaning หรือ data scrubbing มีคำเรียกที่หลากหลาย แต่มีความหมายคือ การทำความสะอาดข้อมูล เป็นกระบวนการตรวจสอบและการแก้ไข (หรือลบ) รายการข้อมูลที่ไม่ถูกต้องออกไปจากข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูลเพราะหมายถึง ความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่นๆ เป็นต้น จึงต้องมีการแทนที่ การปรับปรุง หรือการลบข้อมูลที่ไม่ถูกต้องเหล่านี้ออกไป เพื่อให้ข้อมูลมีคุณภาพ การทำความสะอาดข้อมูลเกิดขึ้นเนื่องจากมีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือ อื่นๆ จึงมีโอกาสสูงที่จะเกิด “ข้อมูลที่ไม่สะอาด” ขึ้น (สรุปจาก : https://supapornhuang.wordpress.com/2012/08/12/data-cleansing/)
การ Clean Data นั้นเป็นขั้นตอนที่ยาก สำคัญ และใช้เวลานาน เพราะนอกจากการหาคำจำกัดความของ “ความไม่สะอาด” ของข้อมูลแล้ว เรายังต้องหาวิธีจัดการกับข้อมูลที่ตกหล่นหายไป หรือที่เราเรียกว่า “Missing value” อีกด้วย (สรุปจาก : https://www.coraline.co.th/single-post/why-data-quality-is-a-KING)
ความถูกต้องของข้อมูลจึงเป็นสิ่งสำคัญเพื่อหลีกเลี่ยงการผิดพลาด ตัวอย่างเช่น ข้อมูลที่เกิดการซ้ำซ้อนหรือขาดหายไปจะส่งผลให้มีการสืบค้นที่ไม่ถูกต้องหรือทำให้เข้าใจผิดได้ เนื่องจากข้อมูลในฐานข้อมูลมีจำนวนมากจำนวนข้อมูลที่เกิดความไม่สอดคล้องกันจึงมากตามไปด้วย การทำความสะอาดจึงเป็นปัญหาใหญ่ที่สุดของคลังข้อมูลหรือฐานข้อมูลทรัพยากรสารสนเทศ
ขั้นตอนการทำงานมีดังนี้
ขั้นแรก นำข้อมูลหนังสือในฐานทรัพยากรสารสนเทศที่ผ่านโปรแกรม MAEC Analyzer เป็นโปรแกรมสำหรับตรวจสอบความถูกต้องในการลงรายการตามมาตรฐานการลงรายการ (MARC) (อ่านเพิ่มเติมจาก : http://202.28.73.5/snclibblog/?p=56528) ซึ่งโปรแกรมจะตรวจสอบตรวจสอบของข้อมูลให้ถูกต้องตามมาตรฐานและเงื่อนไขที่กำหนด หากพบข้อผืดพลาดหรือข้อมูลที่ตรงตามมาตรฐานหรือข้อกำหนด ระบบจะแจ้งเตือนว่าเป็นข้อมูลที่ error
ขั้นที่สอง นำข้อผิดพลาดที่ระบบแจ้งเตือนมาพิจารณาแก้ไข ซึ่งจะต้องแก้ไขข้อมูลในฐานข้อมูลทรัพยากรสารสนเทศของหอสมุดฯ โดยตรง
การแก้ไขข้อมูลหากแก้ไขตามที่ระบบแจ้งนั้นก็จะง่ายและทำได้รวดเร็ว แต่อย่างที่กล่าวข้องต้นโปรแกรมจะตรวจสอบตามมาตรฐานและเงื่อนไขที่ตกลงไว้ ดังนั้นสิ่งที่ผิดพลาดที่นอกเหนือจากที่ระบบตรวจสอบไม่พบ เช่น การพิมพ์ผิด การเว้นระยะผิด การใส่เครื่องหมายผิด และอื่นๆ อีกมากมาย
 

ตัวอย่างความผิดพลาดที่โปรแกรมตรวจพบ

 

ตัวอย่างความผิดพลาดที่โปรแกรมตรวจไม่พบ

นอกจากการตรวจสอบและแก้ไขแล้วยังต้องทำรายงานการปฏิบัติงาน รายละเอียดของข้อผิดพลาดที่พบพร้อมแนบตัวอย่างข้อผิดพลาดที่พบในทุกๆ เดือนด้วย
 
                               
 
 
 
             
 
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
แหล่งอ้างอิง :
https://www.nstda.or.th/th/nstda-knowledge/2910-data-cleaning
https://supapornhuang.files.wordpress.com/
https://www.coraline.co.th/single-post/why-data-quality-is-a-KING

Leave a Reply

Tags

blog CONSAL KPI PULINET การจัดการความรู้ การดูแลสุขภาพ การทำงาน การท่องเที่ยว การบริการ การปฏิบัติงานล่วงเวลา การประชาสัมพันธ์ การพัฒนาตนเอง การพัฒนาบุคลากร การลงรายการ การศึกษาดูงาน การอ่าน การเรียนออนไลน์ กิจกรรมสำหรับเด็ก กิจกรรมส่งเสริมการอ่าน กิจกรรมห้องสมุด ความสุข ค่ายห้องสมุด งานบริการ ธรรมะ นวนิยาย นักเขียน บรรณารักษ์ บริการชุมชน ประกันคุณภาพ ภาพถ่าย ภาษาอังกฤษ มหาวิทยาลัยศิลปากร ระบบห้องสมุดอัตโนมัติ วัด วันสำคัญ วารสาร สัมมนา สุขภาพ หนังสือ หนังสือบริจาค หนังสือและการอ่าน หอสมุดพระราชวังสนามจันทร์ ห้องสมุด ห้องสมุด 24 ชั่วโมง อาหาร