Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/13138
Title: ระบบการรู้จำผู้พูด : การบ่งชี้ผู้พูดแบบขึ้นกับบทคำพูด
Other Titles: Speaker recognition system : text-dependent speaker identification
Authors: ศวิต กาสุริยะ
Advisors: สมชาย จิตะพันธ์กุล
สุดาพร ลักษณียนาวิน
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: [email protected]
[email protected]
Subjects: การรู้จำเสียงพูดอัตโนมัติ
แบบจำลองฮิดเดนมาร์คอฟ
Issue Date: 2542
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อพัฒนาระบบการรู้จำผู้พูดชนิดการบ่งชี้ผู้พูดแบบขึ้นกับบทคำพูดภาษาไทย 3 ประโยคโดยใช้แบบจำลองฮิดเดนมาร์คอฟแบบดิสครีตร่วมกับการควอนไทซ์แบบเวกเตอร์ในการรู้จำเสียงของผู้พูดจำนวน 12 คน ซึ่งประกอบด้วยเพศชาย 6 คน และเพศหญิง 6 คน วิธีการสำคัญที่ทดลองใช้ในการวิเคราะห์เสียงพูดของระบบการบ่งชี้ผู้พูดแบบขึ้นกับบทคำพูดนี้ ได้แก่ สัมประสิทธิ์การประมาณพันธะเชิงเส้น สัมประสิทธิ์เซปสตรอล และสัมประสิทธิ์เซปสตรอลบนความถี่เมล ในการวิจัยนี้ได้ทดลองปรับเปลี่ยนค่าพารามิเตอร์ของระบบอันได้แก่ อันดับของลักษณะสำคัญ ขนาดของต้นแบบอ้างอิงชุดรหัส และจำนวนสถานะของแบบจำลองฮิดเดนมาร์คอฟแบบดิสครีต ในงานวิจัยนี้ได้เปรียบเทียบประสิทธิภาพของต้นแบบอ้างอิงชุดรหัสที่สร้างและฝึกฝนจากขั้นตอนวิธีการแบ่งเฉลี่ย K ส่วน กับขั้นตอนวิธีการหาค่าคาดหวังที่มากที่สุด จากผลการทดสอบระบบการบ่งชี้ผู้พูดแบบขึ้นกับบทคำพูดสามารถสรุปได้ว่าสัมประสิทธิ์เซปสตรอลบนความถี่เมลเป็นลักษณะสำคัญที่ให้อัตราการบ่งชี้ผู้พูดมากที่สุดเท่ากับร้อยละ 100 ที่อันดับของสัมประสิทธิ์เท่ากับ 14 เมื่อต้นแบบอ้างอิงชุดรหัสมีขนาดเท่ากับ 50 และฝึกฝนด้วยขั้นตอนวิธีการหาค่าคาดหวังที่มากที่สุด โดยจำนวนสถานะของแบบจำลองฮิดเดนมาร์คอฟแบบดิสคีตเท่ากับ 5 ในประโยคคำพูดทุกประโยค และสัมประสิทธิ์การประมาณพันธะเชิงเส้นเป็นลักษณะสำคัญที่ให้อัตราการบ่งชี้ผู้พูดน้อยที่สุดเท่ากับร้อยละ 80 85 และ 78.33 ตามลำดับประโยค เมื่ออันดับของสัมประสิทธิ์เท่ากับ 14 ขนาดของต้นแบบอ้างอิงชุดรหัสเท่ากับ 50 และฝึกฝนด้วยขั้นตอนวิธีการแบ่งเฉลี่ย K ส่วน โดยที่จำนวนสถานะของแบบจำลองฮิดเดนมาร์คอฟแบบดิสครีตเท่ากับ 5
Other Abstract: The objective of this thesis is to develop a speaker recognition system for text-dependent speaker identification using the speakers' (6 males and 6 females) speech of three Thai sentences. Discrete hiddden Markov models and vector quantization are used for this recognition system. Linear prediction coefficients, Cepstral coefficients and Mel frequency cepstral coefficients are evaluated in term of analysis tools. In this research, the order of features, size of codebook reference template and the numbers of discrete hidden Markov model states are varied in order to obtain the optimal system parameters and the best recognition rate. This research also compares the efficiency of codebook of K-means and expectation maximization in the algorithm for the construction of codebook reference template. The results of this text-dependent speaker identification system, can be concluded as follows: the best identification rate is 100 percent, obtained from the 14th order of Mel frequency cepstral coefficients, 50 codebook reference template constructed from the expectation maximization algorithm and the 5 states discrete hidden Markov models for all sentences. And the lowest identification rate is 80, 85 and 78.33 percent in the 3 sentences accordingly. They are obtained from the 14th order of linear prediction coefficients, 50 codebook reference template constructed from K-means algorithm and the 5 states discrete hidden Markov models.
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2542
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมไฟฟ้า
URI: http://cuir.car.chula.ac.th/handle/123456789/13138
ISBN: 9743335064
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Sawit_Ka_front.pdf906.44 kBAdobe PDFView/Open
Sawit_Ka_ch1.pdf408.09 kBAdobe PDFView/Open
Sawit_Ka_ch2.pdf1.99 MBAdobe PDFView/Open
Sawit_Ka_ch3.pdf653.63 kBAdobe PDFView/Open
Sawit_Ka_ch4.pdf4.93 MBAdobe PDFView/Open
Sawit_Ka_ch5.pdf338.69 kBAdobe PDFView/Open
Sawit_Ka_back.pdf600.19 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.