Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/68668
Title: ระบบค้นคืนสารสนเทศแบบจัดลำดับและแบบค้นคืนย้อนกลับบนโครงสร้างแถวลำดับแพ็ต
Other Titles: An information retrieval system using ranking and relevance feedback on the PAT array
Authors: มานพ จงเจริญใจ
Advisors: จารุมาตร ปีนทอง
ธาราทิพย์ สุวรรณศาสตร
Other author: จุฬาลงกรณ์มหาวิทยาลัย. บัณฑิตวิทยาลัย
Advisor's Email: [email protected],[email protected]
ไม่มีข้อมูล
Subjects: การค้นคืนสารสนเทศ
ดัชนี
Information retrieval
Indexes
Issue Date: 2541
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์นี้เสนอการพัฒนาระบบค้นคืนสารสนเทศในรูปแบบเอกสารที่เป็นข้อความด้วยวิธีค้นคืนแบบจัดลำดับและแบบค้นคืนย้อนกลับโดยใช้แถวลำดับแพ็ตเป็นดัชนีเพื่อใช้ในการค้นคืน แถวลำดับแพ็ต เป็นโครงสร้างที่เหมาะกับข้อความภาษาไทยที่การแบ่งคำยังไม่ถูกต้องสมบูรณ์ แถวลำดับแพ็ตจัดเก็บดัชนีในรูปของสายอักขระแบบกึ่งอนันต์ที่เรียกว่าซิสตริง การพัฒนาโปรแกรมค้นคืนแบ่งออกเป็น 3 ส่วนคือ ส่วนของการสร้างดัชนีของน้ำหนักคำ ส่วนของการจัดลำดับผลการค้นคืน และส่วนของการค้นคืนย้อนกลับ สำหรับส่วนของการสร้างดัชนีของน้ำหนักคำ จะเก็บค่าตัวชี้ตำแหน่งซิสตริงที่ไม่ซ้ำกันและค่าความถี่ของแต่ละซิสตริงในเอกสารทั้งหมดไว้ในแถวลำดับแพ็ตเพื่อลดขั้นตอนการประมวลผลในช่วงค้นคืน การค้นคืนจะเปรียบเทียบคิวรีที่ผู้ใช้ป้อน กับคำที่ได้จากซิสตริงซึ่งเป็นคำที่ถูกต้องตามหลักภาษาศาสตร์สำหรับส่วนของการจัดลำดับผลการค้นคืนนั้น เมื่อได้ผลลัพธ์การค้นคืน จะนำผลลัพธ์นั้นมาคำนวณหาค่าตามสูตรคำนวณน้ำหนักคำ เพื่อให้ได้ค่าน้ำหนักคำรวมของแต่ละเอกสาร แล้วนำผลน้ำหนักคำที่ได้มาทำการจัดลำดับตามค่าน้ำหนักคำ และส่วนของการค้นคืนย้อนกลับจะนำ เอกสารที่ผู้ใช้แสดงว่าเอกสารนั้นตรงตามต้องการมาใช้สร้างคำใหม่ เพื่อให้ผู้ใช้นำคำใหม่นี้ไปใช้ค้นคืนซ้ำอีกครั้ง เพื่อให้ผลการค้นคืนใหม่มีค่าความถูกต้องสูงขึ้นกว่าเดิม ในการวิจัยนี้ได้เลือกสูตรคำนวณน้ำหนักคำมาทั้งหมด 5 สูตร และจากผลการทดลองการค้นคืน แบบจัดลำดับโดยใช้สูตรคำนวณน้ำหนักคำ 5 สูตร พบว่ามี 2 สูตรที่ให้ผลเฉลี่ยค่าความถูกต้องสูงสุดคือ สูตรคำนวณน้ำหนักคำที่ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสาร และสูตรคำนวณน้ำหนักคำที่ ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสารคูณกับค่าความถี่เอกสารแบบผกผัน ส่วนผลการทดลอง การค้นคืนแบบค้นคืนย้อนกลับ พบว่าการเลือกใช้คำที่มีค่าความถี่คำอยู่ในช่วงขีดจำกัดที่เหมาะสม ช่วยให้ระบบเสนอคิวรีใหม่ที่ช่วยให้ผลการค้นคืนมีผลเฉลี่ยค่าความถูกต้องสูงขึ้นกว่าเดิมได้
Other Abstract: This thesis presents a development of information retrieval system using ranking and relevance feedback on PAT arrays which are used as index for retrieval. A PAT array is a structure that fits for Thai text which Thai text which is not completely segmented. PAT arrays store index in semi-infinite strings (sistrings). The development consists of 3 subsystems: the index term weights creation subsystem, the ranking subsystem, and the relevance feedback subsystem. The index term weights creation subsystem stores unique sistrings and frequency of each sistring from all documents in a PAT array in order to decrease retrieval time. The retrieval compares between user’s query and words from sistrings which follow the linguistics rules. After getting the retrieval results, the ranking subsystem calculates term weights for each document, and sort the documents in descending order using the term weights as a key. The relevance feedback subsystem allows the user to select relevant documents, and enter new query in order to improve the results. This research experienced five term weight formulas. The experiments showed that there are two formulas that give the best results. One of the two formulas consists of term frequency in its formula and the other consists of term frequency multiplied by inverse document frequency. For the relevance feedback, the experiments showed that choosing the appropriate threshold help the system promote new queries that help improve better results.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2541
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/68668
ISSN: 9743317805
Type: Thesis
Appears in Collections:Grad - Theses

Files in This Item:
File Description SizeFormat 
Manop_jo_front.pdfหน้าปกและบทคัดย่อ436.49 kBAdobe PDFView/Open
Manop_jo_ch1.pdfบทที่ 1173.75 kBAdobe PDFView/Open
Manop_jo_ch2.pdfบทที่ 21.06 MBAdobe PDFView/Open
Manop_jo_ch3.pdfบทที่ 3578.71 kBAdobe PDFView/Open
Manop_jo_ch4.pdfบทที่ 42.45 MBAdobe PDFView/Open
Manop_jo_ch5.pdfบทที่ 5556.41 kBAdobe PDFView/Open
Manop_jo_ch6.pdfบทที่ 655.91 kBAdobe PDFView/Open
Manop_jo_back.pdfบรรณานุกรมและภาคผนวก101.71 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.