The Comparative Study of Topic Modeling Techniques on Thai Corporate News Corpus

738

Views

0

Downloads

ช่วงกรุด, ปิยะวัฒน์ and ปิติโชติโชคโภคิน, พิมพ์พิชชา (2019) The Comparative Study of Topic Modeling Techniques on Thai Corporate News Corpus Bachelor thesis, King Mongkut's Institute of Technology Ladkrabang

Abstract

วิทยานิพนธ์ฉบับนี้แบ่งงานวิจัยเป็น 2 ส่วน โดยงานวิจัยหลักนําเสนอการศึกษาเชิงเปรียบเทียบการ ทํางานของแบบจําลองหาหัวข้อซ่อนเร้นแบบ 3 แบบจําลอง อันได้แก่ Latent Dirichlet Alocation (LDA) Latent Semantic Indexing (LSI) และ Non-Negative Matrix Factorization (MMF) โดยใช้ข้อมูลจาก คลังข้อมูลข่าวภาษาไทยจากเว็บไซต์ข่าวออนไลน์ และประเมินผลแบบจําลองด้วยการคํานวณหาค่าความ เชื่อมโยงอัตโนมัติด้วยระบบ ซึ่งการศึกษานี้มีจุดประสงค์ที่มุ่งเน้นให้เห็นถึงความแตกต่างของแบบจําลองทั้ง 3 แบบจําลอง และผลลัพธ์ของการนําเอาค่าความเชื่อมโยงมาประเมินผลกับแบบจําลองโดยตรง โดยนําเสนอให้ เข้าใจง่ายด้วยกราฟแสดงความเปลี่ยนแปลงของค่าความเชื่อมโยงที่ใช้ข้อมูลจากแหล่งข้อมูลที่แตกต่างกัน และ ใช้วิธีการประเมินผลประสิทธิภาพของแบบจําลองที่แตกต่างกัน ซึ่งจากการทดลองนี้ทําให้เห็นว่าหากต้องการ แบ่งกลุ่มหัวข้อให้มีเสถียรภาพมากที่สุด ควรเลือกใช้แบบจําลอง LSI แต่ในด้านของการอนุมานหัวข้อแบบจําลอง หัวข้อ LDA นั้นให้ผลที่ดีที่สุด และส่วนที่ 2 เป็นงานวิจัยที่ต่อเนื่องมาจากงานวิจัยหลัก คือการนําแบบจําลองหา หัวข้อ LDA มาใช้ในการสกัดคุณลักษณะของข้อมูลในการทําเหมืองข้อมูลและใช้การเรียนรู้ด้วยเครื่องต่าง ๆ เพื่อ จําแนกประเภทของข่าว โดยเปรียบเทียบประสิทธิภาพของวิธีการสกัดคุณลักษณะด้วย LDA กับวิธีการสกัด คุณลักษณะอื่น ๆ ที่ได้รับความนิยมคือ Term Frequency (TF) Term frequency - inverse document frequency (TF-IDF) และ Word2Vec ซึ่งผลลัพธ์ที่ได้จากการทดลองแสดงให้เห็นว่า Word2Vec เหมาะสม สําหรับนํามาใช้สกัดคุณลักษณะของชุดข้อมูลข่าวภาษาไทยเพื่อใช้ในการจําแนกประเภทของข่าวมากที่สุด โดย เราได้หวังว่าข้อสรุปที่เกิดขึ้นอาจนําไปสู่การสร้างข้อสังเกตใหม่ และอาจจะมีประโยชน์ต่อการนําไปใช้ ประกอบการใช้งาน LDA LSI และ NMF ในอนาคต

Thai title:

การศึกษาเชิงเปรียบเทียบเทคนิคสำหรับสร้างแบบจำลองหาหัวข้อบนคลังข้อมูลข่าวภาษาไทย

Item Type:

Thesis (Bachelor)

Deposited by:

ระบบ อัตโนมัติ

Date Deposited:

2021-09-06 03:38:07

Last Modified:

2021-09-06 03:38:07

Impact and Interest:

Presentation Video

Statistics