Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/20745
Title: การรู้จำชื่อเฉพาะภาษาไทย : การศึกษาชื่อบุคคล สถานที่ และองค์กร
Other Titles: Thai named entity recognition : a study of person location and organization names
Authors: ศศิวิมล กาลันสีมา
Advisors: วิโรจน์ อรุณมานะกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
Advisor's Email: [email protected]
Subjects: ภาษาศาสตร์คอมพิวเตอร์
การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์)
ภาษาไทย -- คำและวลี
การรู้จำอักขระ (คอมพิวเตอร์)
Computational linguistics
Natural language processing ‪(Computer science)‬
Thai language -- Word formation
Character recognition
Issue Date: 2553
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ศึกษาวิเคราะห์รูปแบบและโครงสร้างของชื่อบุคคล สถานที่ และองค์กร งานวิจัยนี้ใช้คลังข้อมูลขนาด 80,513 คำ เก็บข้อมูลข่าวภาษาไทยจากคลังข้อมูลภาษาไทยแห่งชาติ ประกอบด้วยชื่อบุคคล 762 ชื่อ ชื่อสถานที่ 774 ชื่อ และชื่อองค์กร 1,418 ชื่อ รูปแบบและโครงสร้างของชื่อบุคคลส่วนใหญ่ประกอบด้วยชื่อและนามสกุล (66.54%) ตามด้วยชื่อเพียงอย่างเดียว (33.46%) รูปแบบและโครงสร้างของชื่อสถานที่และชื่อองค์กรมีความซับซ้อนกว่าชื่อบุคคล โครงสร้างของชื่อสถานที่ที่ใช้มากที่สุด ได้แก่ ชื่อสถานที่ที่เกิดจากคำประกอบกันในโครงสร้างความสัมพันธ์แบบชั้นเดียว (50%) และชื่อสถานที่แบบคำเดี่ยว (29.93%) ตามลำดับ โครงสร้างของชื่อองค์กรที่พบมากที่สุด 2 แบบ ได้แก่ ชื่อองค์กรที่เกิดจากคำหลายคำประกอบกันในโครงสร้างความสัมพันธ์แบบหลายชั้นและชั้นเดียวตามลำดับ (28% และ 22.59%) เมื่อมีการใช้ชื่อเฉพาะในบริบทต่อเนื่อง พบว่าชื่อเฉพาะ 34.22% ไม่มีการเปลี่ยนรูป ในขณะที่ 65.78% มีการเปลี่ยนรูปไป การเปลี่ยนรูปที่พบ ได้แก่ การลดองค์ประกอบและการใช้อักษรย่อ คิดเป็น 58.36% และ 33.45% ตามลำดับ ผลการศึกษาการอ้างข้ามประเภท พบการใช้ชื่อองค์กรอ้างถึงสถานที่ 30.93% และชื่อสถานที่อ้างถึงองค์กร 69.07% โดยคำบุพบทและคำกริยาที่ปรากฏในตำแหน่งหน้าหลังของชื่อเฉพาะแบบอ้างข้ามประเภท ไม่มีน้ำหนักในการบ่งชี้การอ้างข้ามประเภท เนื่องจากมีการปรากฏร่วมกับคำอื่นๆ ในคลังข้อมูลเป็นจำนวนมากกว่า
Other Abstract: To analyze patterns and structures of person, location and organization names. A corpus of 80,513 words collected from Thai news in Thai National Corpus is used in this study, in which 762 person names, 774 location names, and 1,418 organization names are analyzed. The most frequently used pattern and structure of person names is composed of first name and last name (66.54%) followed by the use of first name only (33.46%). Patterns and structures of location and organization names are more complex than those of person names. For location names, the most frequently used forms are those composed of multi-words forming into a single level hierarchical structure (50%) followed by the use of a single word (29.93%). For organization names, the top first and second forms are multi-words forming into a multi-level hierarchical and a single structure respectively (28% and 22.59%). When the same named entities are used continuously in the texts, it is found that 34.22% of named entities are continued with the same form, while 65.78% are changed. Within those changed forms, names reduction and abbreviation are accounted for 58.36% and 33.45% respectively. For names used in cross-referencing, organization names referring to location were found 30.93% and the location names referring to organization were found 69.07%. Using only prepositions and verbs on the left and the right of these cross-referencing names is not sufficient for identifying these names because those context words co-occur more often with other words in the corpus.
Description: วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2553
Degree Name: อักษรศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: ภาษาศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/20745
URI: http://doi.org/10.14457/CU.the.2010.2205
metadata.dc.identifier.DOI: 10.14457/CU.the.2010.2205
Type: Thesis
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
sasiwimon_ka.pdf2.91 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.