Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/56708
Title: การปรับปรุงการเข้ารหัสคำทับศัพท์ภาษาไทย/อังกฤษ เพื่อการค้นคืนข้ามภาษาโดยการตัดพยางค์ของรหัสเสียง
Other Titles: Improvement of Thai/English transliterated word encoding for cross-language retrieval by syllable segmentation of phonetic codes
Authors: โอภาส วงษ์ทวีทรัพย์
Advisors: บุญเสริม กิจศิริกุล
สมชาย ประสิทธิ์จูตระกูล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: [email protected]
[email protected]
Subjects: Thai language -- Pronunciation
English language -- Pronunciation
Cross-language information retrieval
Neural networks ‪(Computer sciences)‬
ภาษาไทย -- การออกเสียง
ภาษาอังกฤษ -- การออกเสียง
การค้นคืนสารสนเทศข้ามภาษา
นิวรัลเน็ตเวิร์ค (วิทยาการคอมพิวเตอร์)
Issue Date: 2549
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: นำเสนอการค้นคืนข้ามภาษา สำหรับคำทับศัพท์ภาษาไทย/อังกฤษ โดยได้ใช้วิธีการของนิวรอลเน็ตเวิร์กในการเข้ารหัสคำ และใช้ขั้นตอนการตัดพยางค์ของรหัสเสียง วิธีการที่นำเสนอช่วยให้สามารถค้นคืนคำทับศัพท์ข้ามภาษาได้ โดยไม่ต้องอาศัยพจนานุกรม ในการค้นคืนข้ามภาษาโดยไม่อาศัยพจนานุกรมนั้น จำเป็นต้องใช้หลักการเข้ารหัสซึ่งเป็นสัญลักษณ์แทนเสียงอ่านของคำ และประกอบด้วยรหัสเสียงของแต่ละอักษรของคำมาเรียงต่อกัน ในการที่จะทราบว่าตัวอักษรที่กำลังสนใจในคำนั้นให้รหัสเสียงใด จำเป็นต้องอาศัยการพิจารณาตัวอักษรข้างเคียงด้วย ดังนั้นการเข้ารหัสคำสามารถจัดได้ว่าเป็นปัญหาการจำแนกอย่างหนึ่ง ด้วยเหตุนี้จึงได้นำวิธีการนิวรอลเน็ตเวิร์กมาใช้ในการเข้ารหัสคำ แต่เนื่องจากว่ารหัสคำของคำไทยและอังกฤษที่มีเสียงอ่านตรงกัน อาจมีความแตกต่างกันบ้าง จึงได้ใช้ขั้นตอนการเปรียบเทียบแบบประมาณสำหรับการค้นคืนคำที่มีเสียงอ่านคล้ายกันมากที่สุด จากผลการทดลองด้วยวิธี K-fold cross validation พบว่าเมื่อได้ปรับปรุงนิวรอลเน็ตเวิร์ก สามารถให้ผลการค้นคืนในแบบที่ 1 ด้วยตัววัด F1 เป็น 83.28% สำหรับกรณีคำไทยทับศัพท์คำอังกฤษและให้ผลการค้นคืน F1 90.54% สำหรับคำอังกฤษทับศัพท์คำไทยที่ค่าความแตกต่างของรหัสเสียงเป็น 0
Other Abstract: To present Thai/English cross-language transliterated world retrieval by using neural networks and syllable segmentation of phonetic codes. The proposed method enables the transliterated word retrieval without using the dictionary. Without dictionary, the phonetic code is employed for cross-language retrieval. The phonetic code of a word represents the sound of the word and it consists of a sequence of phonetic codes of characters in the word. In order to determine the code of a particular character, it is necessary to consider its surrounding characters. Hence this problem can be identified as a classification problem. For this reason, neural networks are used in phonetic encoding. However, as the codes generated from a pair of corresponding Thai/English words are sometimes slightly different, the approximate string matching is applied to determine of character editing. The experimental results, using K-fold cross validation, show that the F1-measure values are 83.28% for Thai/English cross-language transliterated and 90.54% for English/Thai cross-language transliterated with zero distance between phonetic codes.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2549
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/56708
URI: http://doi.org/10.14457/CU.the.2006.1073
metadata.dc.identifier.DOI: 10.14457/CU.the.2006.1073
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
opas_wo_front.pdf1.59 MBAdobe PDFView/Open
opas_wo_ch1.pdf700.98 kBAdobe PDFView/Open
opas_wo_ch2.pdf2.43 MBAdobe PDFView/Open
opas_wo_ch3.pdf2.08 MBAdobe PDFView/Open
opas_wo_ch4.pdf721.33 kBAdobe PDFView/Open
opas_wo_ch5.pdf2.02 MBAdobe PDFView/Open
opas_wo_ch6.pdf408.43 kBAdobe PDFView/Open
opas_wo_back.pdf1.41 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.