<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>DataCon Archives - Rocket Media Lab</title>
	<atom:link href="https://rocketmedialab.co/tag/datacon/feed/" rel="self" type="application/rss+xml" />
	<link>https://rocketmedialab.co/tag/datacon/</link>
	<description>แหล่งข้อมูลติดตามประเด็นสังคม ทั้งเชิงปริมาณและคุณภาพ เพื่อต่อยอดในงานข่าว</description>
	<lastBuildDate>Mon, 21 Oct 2024 15:10:56 +0000</lastBuildDate>
	<language>th</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://rocketmedialab.co/wp-content/uploads/2021/03/cropped-RML-circle-black-32x32.png</url>
	<title>DataCon Archives - Rocket Media Lab</title>
	<link>https://rocketmedialab.co/tag/datacon/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Data from Scratch</title>
		<link>https://rocketmedialab.co/data-from-scratch/</link>
		
		<dc:creator><![CDATA[Rocket Media Lab]]></dc:creator>
		<pubDate>Mon, 21 Oct 2024 14:57:39 +0000</pubDate>
				<category><![CDATA[politics]]></category>
		<category><![CDATA[data journalism]]></category>
		<category><![CDATA[DataCon]]></category>
		<category><![CDATA[DataCon2024]]></category>
		<category><![CDATA[featured]]></category>
		<category><![CDATA[เลือกตั้ง66]]></category>
		<guid isPermaLink="false">https://rocketmedialab.co/?p=4706</guid>

					<description><![CDATA[<p>&#3608;&#3636;&#3605;&#3636;&#3617;&#3634; &#3629;&#364 [&#8230;]</p>
<p>The post <a href="https://rocketmedialab.co/data-from-scratch/">Data from Scratch</a> appeared first on <a href="https://rocketmedialab.co">Rocket Media Lab</a>.</p>
]]></description>
										<content:encoded><![CDATA[
<p>ธิติมา อุรพีพัฒนพงศ์ นักวิจัยอาวุโส Rocket Media Lab เล่าถึงการทำงานของ Rocket Media Lab ในช่วง Lightning Talk ของงาน <a href="https://www.dataconth.com/">Data Con 2024</a> ซึ่งร่วมจัดโดย Rocket Media Lab, Skooldio, WeVis, Punch Up, Boonmee Lab, HAND, 101 และ 101PUB เมื่อวันที่ 5 ต.ค. 2024 ที่ทรู ดิจิทัล พาร์ค</p>



<p>รายละเอียดมีดังนี้</p>



<p></p>



<p>ในช่วง 2-3 ปีที่ผ่านมา AI เปลี่ยนการทำงานของเราไปมาก AI เป็นตัวช่วยจัดการกับข้อมูลมากมาย ตั้งแต่ค้นหา รวบรวม วิเคราะห์และประมวลผล ทำให้เราทำงานกับข้อมูลที่กระจัดกระจายในปริมาณมหาศาลได้ในเวลาสั้นๆ สำหรับงานวารสารศาสตร์ข้อมูล หรือ data journalism ที่ Rocket Media Lab ทำอยู่ ก็อยากได้ AI ช่วยงานมาก เพราะที่ผ่านมา เรายังอาศัยแรงคนเป็นหลัก วันนี้จะมาเล่าให้ฟังว่า เราทำงานยังไง จากประสบการณ์ตอนทำข้อมูลสำหรับการเลือกตั้งปี 2566 ที่เพิ่งผ่านไป</p>



<p>โจทย์ของ Rocket Media Lab ก็คือ อยากรู้ข้อมูลผู้สมัคร สส. แบ่งเขต ว่าเป็นใครมาจากไหน ทั้งในแง่ว่าที่ว่าเคยเป็น สส.มาก่อนไหม อยู่พรรคไหนมาแล้วบ้าง เคยเป็นนักการเมืองท้องถิ่นมาก่อนหรือเปล่า ไปจนถึงว่า เป็นเครือญาติกับนักการเมืองคนไหน เรายังไม่เจอใครรวบรวมข้อมูลนี้อย่างเป็นระบบ</p>



<p>ที่สำคัญก็คือ งานนี้เราไม่ได้คิดแค่ว่าจะนำมารายงานข่าวการเลือกตั้งครั้งนี้แล้วจบ แต่ตั้งใจไว้ว่าน่าจะเป็น database ข้อมูลนักการเมืองหลังรัฐธรรมนูญ 2540 เป็นต้นมา</p>



<p>อาจฟังดูไม่ยาก น่าจะมีคนทำเรื่องนี้ไว้เยอะแล้ว เราก็คิดแบบนี้เหมือนกันในตอนแรก ปรากฏว่าผิดจากที่คาดไปมากทีเดียว&nbsp;</p>



<p>แรกสุด เราต้องรวบรวมชื่อผู้สมัคร สส. ในการเลือกตั้งที่ย้อนหลังไป 20 ปี ที่เป็นครั้งแรกที่มีการแบ่งเขตกับปาร์ตี้ลิสต์ ตามรัฐธรรมนูญ 2540 แน่นอนเราต้องเริ่มจากเว็บ กกต. หน่วยงานจัดการเลือกตั้งที่ถือกำเนิดมาหลังรัฐธรรมนูญ 2540 บังคับใช้ เว็บนี้ก็ควรจะมีรายชื่อผู้สมัคร สส. หรืออย่างน้อยที่สุดก็ต้องมีรายชื่อ สส. จากการเลือกตั้งแต่ละครั้งรวบรวมไว้บ้าง ผลปรากฏว่าไม่มี ลองเข้าเว็บ กกต. ตอนนี้ก็มีแต่ข้อมูลปี 2566</p>



<p>ต่อมาเติมข้อมูลได้จากเว็บ data.go.th เว็บ open data ภาครัฐที่เราคุ้นกันดี แม้จะมีรายชื่อผู้สมัครเป็นไฟล์ที่ machine-readable แต่ก็มีไม่ครบ เพราะมีข้อมูลการเลือกตั้งเพียง 3 ครั้งคือ 2548, 2550, 2554 เท่านั้น</p>



<p>เจอแบบนี้เราก็ต้องงัดสารพัดวิธีเท่าที่ทำได้ เช่น ค้นหาจากเว็บข่าวย้อนหลังไปจนถึงปี 2544 เพราะสื่อยุคก่อนจะตีพิมพ์รายชื่อผู้สมัคร ราชกิจจานุเบกษา เว็บห้องสมุดรัฐสภาซึ่งข้อมูลที่เจอส่วนหนึ่ง เป็นไฟล์รูปที่สแกนเอกสาร กรอกมือทุกอย่างลงตาราง spreadsheet จนได้รายชื่อมา 10,000 กว่ารายชื่อ</p>



<p>ในรายชื่อผู้สมัคร 10,000 กว่ารายชื่อจาก 20 ปี เราต้องมาซ้อนกับรายชื่อผู้สมัครแบบแบ่งเขตทั้งหมดในปี 2566 ซึ่งมี 4,781 คน เพื่อดูว่ามีใครเคยลงสมัครมาแล้วบ้าง ใครเป็นหน้าใหม่ กว่าจะคอนเฟิร์มรายชื่อผู้สมัครได้ก็ต้องรอวันสมัครรับเลือกตั้ง 3-7 เมษายน หรือแค่เดือนครึ่งก่อนวันเลือกตั้ง</p>



<p>ทีนี้จะเล่าการทำงานว่าด้วยเรื่องของชื่อผู้สมัครล้วนๆ ว่า พบเจออะไรบ้าง</p>



<p>เพราะเราต้องการ track ประวัติของผู้สมัคร เพราะฉะนั้นอย่างน้อยที่สุดชื่อและนามสกุลของคนเดียวกันจะต้องตรงกัน จะได้จัดการมันง่ายๆ แต่ถ้ามันราบรื่นก็ไม่มีเรื่องให้มาเล่าต่อในวันนี้</p>


<div class="wp-block-image">
<figure class="aligncenter size-large"><img fetchpriority="high" decoding="async" width="1024" height="683" src="https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-1024x683.jpg" alt="" class="wp-image-4707" srcset="https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-1024x683.jpg 1024w, https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-300x200.jpg 300w, https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-768x512.jpg 768w, https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-1536x1024.jpg 1536w, https://rocketmedialab.co/wp-content/uploads/2024/10/lightning1-2048x1365.jpg 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>
</div>


<p>อุปสรรคแรก การสะกดคำและคำผิด เป็นเรื่องเหลือเชื่อมากที่เอกสารทางการจาก กกต.เอง สะกดชื่อคนเดียวกันที่ไม่เหมือนกัน เช่น คนนี้ “ภุชงค์ เลาศิริวงศ์” “ภุชงค์ เลาหศิริวงค์” “ภุชงค์ เลาหศิริวงศ์” “ภุชงค์ เสาหศิริวงศ์” ทั้งหมดคือคนเดียวกัน ลงเลือกตั้งคนละปีกัน ชื่อที่ถูกต้องคือ ภุชงค์ เลาหศิริวงศ์ เพราะเฟซบุ๊กของเจ้าตัวสะกดอย่างนี้</p>



<p>ขอยกตัวอย่างอีกคนหนึ่ง คุณ “รักษ์ฤทัย ยกสุขฤทัยไข่ขาว” ราชกิจจานุเบกษาประกาศรายชื่อผู้สมัครไว้แบบนี้ แต่ชื่อที่ถูกต้องก็คือ “รักษ์ฤทัย ยกสุขฤทัยไขข่าว” ต้องไปหาจากเฟซบุ๊กของเจ้าตัวอีกแล้ว</p>



<p>อุปสรรคอันต่อมาเป็นเรื่องของวัฒนธรรม คนไทยนิยมเปลี่ยนชื่อ-นามสกุล ไม่ว่าจะด้วยเหตุผลอะไรก็ตาม ส่งผลกระทบกับการทำงานของเรา</p>



<p>อย่างชื่อนี้เป็นตัวอย่าง สุขโกศล โกศลธรรมสกุล เป็นผู้สมัคร สส.พรรคพลังประชารัฐ ปี 2566 แต่เขาก็คือคนเดียวกับที่ชื่อ นายนเรศ เชื้อโฮม อายุ 37 ปี สมาชิกอบจ. อุตรดิตถ์ เขต 1 อ.พิชัย ในปี 2554 ไม่มีอะไรเหมือนกันเลย ได้คำตอบจากแอคเคานท์ TikTok ค่ะ แน่นอนว่า พอเป็นแบบนี้เราก็ต้องเช็กทุกรายชื่อ</p>



<p>ในงานของเราเจอผู้สมัคร สส.เปลี่ยนชื่อหรือนามสกุลอย่างน้อย 49 คน จากผู้สมัครปี 2566 ทั้งหมด 4,781 คน จะตรวจสอบข้อมูลนี้ได้ยังไง เป็นเรื่องที่เรานึกกันไม่ออกเลย รู้แค่หนทางเดียว ทำมือ ก็คือ เสิร์ชไปเรื่อยๆ</p>



<p>จนเรารวม dataset ที่เป็นโครงล้วนอย่างเดียวก่อน เราต้องหาข้อมูลเติมเข้าไปอีก</p>



<p>ประวัติผู้สมัครจาก กกต.จะมีแค่เพศ อายุ ที่อยู่ตามทะเบียนบ้าน อาชีพที่ไม่บ่งบอกอะไรเลย เช่น เป็นแพทย์ วิศวกร ข้าราชการ เป็นข้อมูลที่ไม่มีประโยชน์ ไม่ตอบคำถามที่เราสงสัย เช่น ไม่บอกว่าเป็นลูกเขยนายก อบจ. คนไหน หรือเป็นลูกสาวของ สส.คนไหน ข้อมูลของ กกต. ไม่เหมาะสำหรับฐานข้อมูลสำหรับงานสื่อสารมวลชน&nbsp;</p>



<p>เมื่อเป็นแบบนี้ เราก็ต้องรับบทเป็นนักสืบโซเชียลของแท้ เสิร์ชจากกูเกิลทีละคน แน่นอนไม่ใช่จะเจอข้อมูลของทุกคน และก็ไม่รับประกันว่าจะได้ข้อมูลที่เราต้องการไหม แต่ก็พยายามให้ได้มากที่สุด</p>



<p>ค้นผ่านทางแพลตฟอร์มโซเชียลมีเดียต่างๆ เท่าที่ทำได้ ทั้งเฟซบุ๊ก TikTok ไม่ใช่แค่เพจทางการของผู้สมัคร แต่ยังรวมทั้งบัญชีส่วนตัว และต้องกดดูไทม์ไลน์ย้อนหลังให้ไกลที่สุด เพื่อหาให้ได้ว่า เคยลงสมัครเลือกตั้งท้องถิ่นไหม มีเครือญาติเป็นผู้สมัครหรือเป็นสมาชิกองค์กรปกครองส่วนท้องถิ่นรึเปล่า</p>



<p>จนในที่สุดก็ได้งานออกมา ซึ่งเรามั่นใจว่า ประวัติของผู้สมัครในเว็บเราเป็นหนึ่งในฐานข้อมูลนักการเมืองไทยสมัยใหม่ที่ลึกที่สุดแห่งหนึ่งเลย</p>



<p>นอกจากใช้ SQL และ Google Sheet แบบไม่ซับซ้อนแล้ว สำหรับงานนี้กระบวนการรวบรวมและจัดการข้อมูลนี้เป็นงานทำมือ ส่วนหนึ่งเป็นเพราะว่า ข้อจำกัดของคนทำงาน ที่ไม่เชี่ยวชาญทางเทคนิคมากพอ แต่อีกเหตุผลหนึ่งก็น่าจะเป็นเพราะข้อมูลพวกนี้ไม่เปิดเผยต่อสาธารณะตรงไปตรงมา ซุกซ่อนตามที่ต่างๆ ไม่มีแพทเทิร์นตายตัว ไม่รู้จะกำหนดกฎเกณฑ์การหาข้อมูลยังไง เพราะมันก็ไร้ระเบียบมาก เช่น ชื่อผู้สมัครในระบบ กกต. เป็นภาษาไทย ชื่อในเฟซบุ๊กเป็นภาษาอังกฤษที่ไม่รู้ว่าที่ถูกต้องสะกดยังไง ใช้ชื่ออะไรในโลกออนไลน์</p>



<p>งานนี้ใช้เวลาราว 3 เดือน ช่วงสองเดือนแรกเป็นการเตรียมข้อมูลผู้สมัครเก่าไว้เป็นฐานข้อมูลก่อน แล้วก็ต้องเร่งเครื่องหนักมาก นับถอยหลังอีกราว 1 เดือน จากวันที่ กกต.ประกาศรับสมัคร กกต.ประกาศรายชื่อผู้สมัคร และต้องเผยแพร่ให้ทันก่อนจะถึงวันเลือกตั้ง และเพราะมันเป็นฐานข้อมูล หลังเลือกตั้งเราก็ยังผลิตอะไรมาเล่นได้ต่อ และเอามาใช้กับการเลือกตั้งครั้งต่อไปได้อีก เช่น การเลือกตั้ง อบจ. ที่กำลังจะมาถึง</p>



<p>ที่เล่ามาทั้งหมดนี้เพื่อแชร์ประสบการณ์จากการทำงาน data จากมุมของคนทำงานสื่อสารมวลชน&nbsp;</p>



<p>ลักษณะของปัญหาที่เราเผชิญมา คิดว่ามันมีลักษณะเฉพาะบางอย่างที่เรายังคิดไม่ออกว่าควรจะทำยังไง มันจะมีวิธีไหนบ้างที่ช่วยให้เราทำงานได้ง่ายขึ้นกว่าที่ผ่านมาไหม หากใครมีคำแนะนำก็ยินดีพูดคุยอย่างยิ่ง หรือใครรู้สึกว่า งาน data แนวนี้ท้าทายมาก สนใจอยากทำงานร่วมกัน ขอให้แสดงตัวมาได้เลยค่ะ</p>



<p></p>



<p>บทความที่เกี่ยวข้อง</p>



<p><a href="https://rocketmedialab.co/election-66-16/">เลือกตั้ง ’66 ผู้สมัคร ส.ส. เขต 4,781 คน : แม้จะมีผู้สมัครหน้าใหม่มากที่สุด แต่ผู้สมัครหน้าเก่าชอบย้ายพรรคมากกว่าลงสมัครพรรคเดิม</a></p>
<p>The post <a href="https://rocketmedialab.co/data-from-scratch/">Data from Scratch</a> appeared first on <a href="https://rocketmedialab.co">Rocket Media Lab</a>.</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
