Connect with us

Hi, what are you looking for?

politics

Data from Scratch

ธิติมา อุรพีพัฒนพงศ์ นักวิจัยอาวุโส Rocket Media Lab เล่าถึงการทำงานของ Rocket Media Lab ในช่วง Lightning Talk ของงาน Data Con 2024 ซึ่งร่วมจัดโดย Rocket Media Lab, Skooldio, WeVis, Punch Up, Boonmee Lab, HAND, 101 และ 101PUB เมื่อวันที่ 5 ต.ค. 2024 ที่ทรู ดิจิทัล พาร์ค

รายละเอียดมีดังนี้

ในช่วง 2-3 ปีที่ผ่านมา AI เปลี่ยนการทำงานของเราไปมาก AI เป็นตัวช่วยจัดการกับข้อมูลมากมาย ตั้งแต่ค้นหา รวบรวม วิเคราะห์และประมวลผล ทำให้เราทำงานกับข้อมูลที่กระจัดกระจายในปริมาณมหาศาลได้ในเวลาสั้นๆ สำหรับงานวารสารศาสตร์ข้อมูล หรือ data journalism ที่ Rocket Media Lab ทำอยู่ ก็อยากได้ AI ช่วยงานมาก เพราะที่ผ่านมา เรายังอาศัยแรงคนเป็นหลัก วันนี้จะมาเล่าให้ฟังว่า เราทำงานยังไง จากประสบการณ์ตอนทำข้อมูลสำหรับการเลือกตั้งปี 2566 ที่เพิ่งผ่านไป

โจทย์ของ Rocket Media Lab ก็คือ อยากรู้ข้อมูลผู้สมัคร สส. แบ่งเขต ว่าเป็นใครมาจากไหน ทั้งในแง่ว่าที่ว่าเคยเป็น สส.มาก่อนไหม อยู่พรรคไหนมาแล้วบ้าง เคยเป็นนักการเมืองท้องถิ่นมาก่อนหรือเปล่า ไปจนถึงว่า เป็นเครือญาติกับนักการเมืองคนไหน เรายังไม่เจอใครรวบรวมข้อมูลนี้อย่างเป็นระบบ

ที่สำคัญก็คือ งานนี้เราไม่ได้คิดแค่ว่าจะนำมารายงานข่าวการเลือกตั้งครั้งนี้แล้วจบ แต่ตั้งใจไว้ว่าน่าจะเป็น database ข้อมูลนักการเมืองหลังรัฐธรรมนูญ 2540 เป็นต้นมา

อาจฟังดูไม่ยาก น่าจะมีคนทำเรื่องนี้ไว้เยอะแล้ว เราก็คิดแบบนี้เหมือนกันในตอนแรก ปรากฏว่าผิดจากที่คาดไปมากทีเดียว 

แรกสุด เราต้องรวบรวมชื่อผู้สมัคร สส. ในการเลือกตั้งที่ย้อนหลังไป 20 ปี ที่เป็นครั้งแรกที่มีการแบ่งเขตกับปาร์ตี้ลิสต์ ตามรัฐธรรมนูญ 2540 แน่นอนเราต้องเริ่มจากเว็บ กกต. หน่วยงานจัดการเลือกตั้งที่ถือกำเนิดมาหลังรัฐธรรมนูญ 2540 บังคับใช้ เว็บนี้ก็ควรจะมีรายชื่อผู้สมัคร สส. หรืออย่างน้อยที่สุดก็ต้องมีรายชื่อ สส. จากการเลือกตั้งแต่ละครั้งรวบรวมไว้บ้าง ผลปรากฏว่าไม่มี ลองเข้าเว็บ กกต. ตอนนี้ก็มีแต่ข้อมูลปี 2566

ต่อมาเติมข้อมูลได้จากเว็บ data.go.th เว็บ open data ภาครัฐที่เราคุ้นกันดี แม้จะมีรายชื่อผู้สมัครเป็นไฟล์ที่ machine-readable แต่ก็มีไม่ครบ เพราะมีข้อมูลการเลือกตั้งเพียง 3 ครั้งคือ 2548, 2550, 2554 เท่านั้น

เจอแบบนี้เราก็ต้องงัดสารพัดวิธีเท่าที่ทำได้ เช่น ค้นหาจากเว็บข่าวย้อนหลังไปจนถึงปี 2544 เพราะสื่อยุคก่อนจะตีพิมพ์รายชื่อผู้สมัคร ราชกิจจานุเบกษา เว็บห้องสมุดรัฐสภาซึ่งข้อมูลที่เจอส่วนหนึ่ง เป็นไฟล์รูปที่สแกนเอกสาร กรอกมือทุกอย่างลงตาราง spreadsheet จนได้รายชื่อมา 10,000 กว่ารายชื่อ

ในรายชื่อผู้สมัคร 10,000 กว่ารายชื่อจาก 20 ปี เราต้องมาซ้อนกับรายชื่อผู้สมัครแบบแบ่งเขตทั้งหมดในปี 2566 ซึ่งมี 4,781 คน เพื่อดูว่ามีใครเคยลงสมัครมาแล้วบ้าง ใครเป็นหน้าใหม่ กว่าจะคอนเฟิร์มรายชื่อผู้สมัครได้ก็ต้องรอวันสมัครรับเลือกตั้ง 3-7 เมษายน หรือแค่เดือนครึ่งก่อนวันเลือกตั้ง

ทีนี้จะเล่าการทำงานว่าด้วยเรื่องของชื่อผู้สมัครล้วนๆ ว่า พบเจออะไรบ้าง

เพราะเราต้องการ track ประวัติของผู้สมัคร เพราะฉะนั้นอย่างน้อยที่สุดชื่อและนามสกุลของคนเดียวกันจะต้องตรงกัน จะได้จัดการมันง่ายๆ แต่ถ้ามันราบรื่นก็ไม่มีเรื่องให้มาเล่าต่อในวันนี้

อุปสรรคแรก การสะกดคำและคำผิด เป็นเรื่องเหลือเชื่อมากที่เอกสารทางการจาก กกต.เอง สะกดชื่อคนเดียวกันที่ไม่เหมือนกัน เช่น คนนี้ “ภุชงค์ เลาศิริวงศ์” “ภุชงค์ เลาหศิริวงค์” “ภุชงค์ เลาหศิริวงศ์” “ภุชงค์ เสาหศิริวงศ์” ทั้งหมดคือคนเดียวกัน ลงเลือกตั้งคนละปีกัน ชื่อที่ถูกต้องคือ ภุชงค์ เลาหศิริวงศ์ เพราะเฟซบุ๊กของเจ้าตัวสะกดอย่างนี้

ขอยกตัวอย่างอีกคนหนึ่ง คุณ “รักษ์ฤทัย ยกสุขฤทัยไข่ขาว” ราชกิจจานุเบกษาประกาศรายชื่อผู้สมัครไว้แบบนี้ แต่ชื่อที่ถูกต้องก็คือ “รักษ์ฤทัย ยกสุขฤทัยไขข่าว” ต้องไปหาจากเฟซบุ๊กของเจ้าตัวอีกแล้ว

อุปสรรคอันต่อมาเป็นเรื่องของวัฒนธรรม คนไทยนิยมเปลี่ยนชื่อ-นามสกุล ไม่ว่าจะด้วยเหตุผลอะไรก็ตาม ส่งผลกระทบกับการทำงานของเรา

อย่างชื่อนี้เป็นตัวอย่าง สุขโกศล โกศลธรรมสกุล เป็นผู้สมัคร สส.พรรคพลังประชารัฐ ปี 2566 แต่เขาก็คือคนเดียวกับที่ชื่อ นายนเรศ เชื้อโฮม อายุ 37 ปี สมาชิกอบจ. อุตรดิตถ์ เขต 1 อ.พิชัย ในปี 2554 ไม่มีอะไรเหมือนกันเลย ได้คำตอบจากแอคเคานท์ TikTok ค่ะ แน่นอนว่า พอเป็นแบบนี้เราก็ต้องเช็กทุกรายชื่อ

ในงานของเราเจอผู้สมัคร สส.เปลี่ยนชื่อหรือนามสกุลอย่างน้อย 49 คน จากผู้สมัครปี 2566 ทั้งหมด 4,781 คน จะตรวจสอบข้อมูลนี้ได้ยังไง เป็นเรื่องที่เรานึกกันไม่ออกเลย รู้แค่หนทางเดียว ทำมือ ก็คือ เสิร์ชไปเรื่อยๆ

จนเรารวม dataset ที่เป็นโครงล้วนอย่างเดียวก่อน เราต้องหาข้อมูลเติมเข้าไปอีก

ประวัติผู้สมัครจาก กกต.จะมีแค่เพศ อายุ ที่อยู่ตามทะเบียนบ้าน อาชีพที่ไม่บ่งบอกอะไรเลย เช่น เป็นแพทย์ วิศวกร ข้าราชการ เป็นข้อมูลที่ไม่มีประโยชน์ ไม่ตอบคำถามที่เราสงสัย เช่น ไม่บอกว่าเป็นลูกเขยนายก อบจ. คนไหน หรือเป็นลูกสาวของ สส.คนไหน ข้อมูลของ กกต. ไม่เหมาะสำหรับฐานข้อมูลสำหรับงานสื่อสารมวลชน 

เมื่อเป็นแบบนี้ เราก็ต้องรับบทเป็นนักสืบโซเชียลของแท้ เสิร์ชจากกูเกิลทีละคน แน่นอนไม่ใช่จะเจอข้อมูลของทุกคน และก็ไม่รับประกันว่าจะได้ข้อมูลที่เราต้องการไหม แต่ก็พยายามให้ได้มากที่สุด

ค้นผ่านทางแพลตฟอร์มโซเชียลมีเดียต่างๆ เท่าที่ทำได้ ทั้งเฟซบุ๊ก TikTok ไม่ใช่แค่เพจทางการของผู้สมัคร แต่ยังรวมทั้งบัญชีส่วนตัว และต้องกดดูไทม์ไลน์ย้อนหลังให้ไกลที่สุด เพื่อหาให้ได้ว่า เคยลงสมัครเลือกตั้งท้องถิ่นไหม มีเครือญาติเป็นผู้สมัครหรือเป็นสมาชิกองค์กรปกครองส่วนท้องถิ่นรึเปล่า

จนในที่สุดก็ได้งานออกมา ซึ่งเรามั่นใจว่า ประวัติของผู้สมัครในเว็บเราเป็นหนึ่งในฐานข้อมูลนักการเมืองไทยสมัยใหม่ที่ลึกที่สุดแห่งหนึ่งเลย

นอกจากใช้ SQL และ Google Sheet แบบไม่ซับซ้อนแล้ว สำหรับงานนี้กระบวนการรวบรวมและจัดการข้อมูลนี้เป็นงานทำมือ ส่วนหนึ่งเป็นเพราะว่า ข้อจำกัดของคนทำงาน ที่ไม่เชี่ยวชาญทางเทคนิคมากพอ แต่อีกเหตุผลหนึ่งก็น่าจะเป็นเพราะข้อมูลพวกนี้ไม่เปิดเผยต่อสาธารณะตรงไปตรงมา ซุกซ่อนตามที่ต่างๆ ไม่มีแพทเทิร์นตายตัว ไม่รู้จะกำหนดกฎเกณฑ์การหาข้อมูลยังไง เพราะมันก็ไร้ระเบียบมาก เช่น ชื่อผู้สมัครในระบบ กกต. เป็นภาษาไทย ชื่อในเฟซบุ๊กเป็นภาษาอังกฤษที่ไม่รู้ว่าที่ถูกต้องสะกดยังไง ใช้ชื่ออะไรในโลกออนไลน์

งานนี้ใช้เวลาราว 3 เดือน ช่วงสองเดือนแรกเป็นการเตรียมข้อมูลผู้สมัครเก่าไว้เป็นฐานข้อมูลก่อน แล้วก็ต้องเร่งเครื่องหนักมาก นับถอยหลังอีกราว 1 เดือน จากวันที่ กกต.ประกาศรับสมัคร กกต.ประกาศรายชื่อผู้สมัคร และต้องเผยแพร่ให้ทันก่อนจะถึงวันเลือกตั้ง และเพราะมันเป็นฐานข้อมูล หลังเลือกตั้งเราก็ยังผลิตอะไรมาเล่นได้ต่อ และเอามาใช้กับการเลือกตั้งครั้งต่อไปได้อีก เช่น การเลือกตั้ง อบจ. ที่กำลังจะมาถึง

ที่เล่ามาทั้งหมดนี้เพื่อแชร์ประสบการณ์จากการทำงาน data จากมุมของคนทำงานสื่อสารมวลชน 

ลักษณะของปัญหาที่เราเผชิญมา คิดว่ามันมีลักษณะเฉพาะบางอย่างที่เรายังคิดไม่ออกว่าควรจะทำยังไง มันจะมีวิธีไหนบ้างที่ช่วยให้เราทำงานได้ง่ายขึ้นกว่าที่ผ่านมาไหม หากใครมีคำแนะนำก็ยินดีพูดคุยอย่างยิ่ง หรือใครรู้สึกว่า งาน data แนวนี้ท้าทายมาก สนใจอยากทำงานร่วมกัน ขอให้แสดงตัวมาได้เลยค่ะ

บทความที่เกี่ยวข้อง

เลือกตั้ง ’66 ผู้สมัคร ส.ส. เขต 4,781 คน : แม้จะมีผู้สมัครหน้าใหม่มากที่สุด แต่ผู้สมัครหน้าเก่าชอบย้ายพรรคมากกว่าลงสมัครพรรคเดิม

คุณอาจสนใจ