Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/55329
Title: การเปรียบเทียบวิธีคัดกรองตัวแปรสำหรับข้อมูลที่มีมิติสูง
Other Titles: A COMPARISON OF VARIABLE SCREENING METHODS IN HIGH-DIMENSION DATA
Authors: ทวีศักดิ์ เล็กตระกูลชัย
Advisors: วิฐรา พึ่งพาพงศ์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: [email protected],[email protected]
Subjects: การวิเคราะห์การถดถอย
การถดถอยริดจ์
Regression analysis
Ridge regression (Statistics)
Issue Date: 2559
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีคัดกรองตัวแปรอิสระจากวิธีการวิเคราะห์การถดถอยพหุเชิงเส้น วิธีลาสโซ วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญ วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญด้วยค่าความสัมพันธ์ของระยะห่าง และวิธีการกรองตัวแปรด้วยการถดถอยริดจ์แบบวนซ้ำ สำหรับข้อมูลที่มีมิติสูง โดยการจำลองข้อมูลที่มีขอบเขตต่างๆ กัน โดยที่กำหนดจำนวนตัวแปรอิสระเป็น 1000 , 2000 และ 4000 ซึ่งความสัมพันธ์ของตัวแปรอิสระเป็น 0.5 และ 0.9 ทั้งนี้จะใช้ค่าความถูกต้องในการคัดกรองตัวแปร ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของจำนวนตัวแปรอิสระที่น้อยที่สุดของเซตตัวแปรอิสระที่ผ่านการคัดกรอง ที่ทำให้เซตตัวแปรอิสระที่แท้จริงเป็นสับเซตของเซตตัวแปรอิสระที่ผ่านการคัดกรอง เป็นเครื่องมือในการเปรียบเทียบและวัดประสิทธิภาพ จากการศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่าวิธีลาสโซ สามารถคัดกรองตัวแปรได้มีประสิทธิภาพมากที่สุด รองลงมาคือวิธีการวิเคราะห์การถดถอยพหุเชิงเส้น วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญกับวิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญด้วยค่าความสัมพันธ์ของระยะห่างมีความสามารถเท่าเทียมกัน และวิธีการกรองตัวแปรด้วยการถดถอยริดจ์แบบวนซ้ำเป็นวิธีที่มีประสิทธิภาพที่น้อยที่สุด
Other Abstract: This research aims to compare the variable screening of Multiple Linear Regression Analysis , Least Absolute Shrinkage And Selection Operator (LASSO) , Sure Independence Screening (SIS) , Distance Correlation Sure Independence Screening (DC-SIS) and Iteratively Thresholded Ridge Regression Screener (ITRRS) for high dimensional data. Here we use simulation data to compare the performance of variable screening methods. we set numbers of explanatory variables are 1000 , 2000 and 4000 which the correlation among explanatory variables are 0.5 and 0.9. The performance are compared in terms of the accuracy of variable screening , mean and standard deviation of the smallest number of sets variable screening when set true variable is a subset of variable screening. In this study, we found that LASSO has the best performance followed by Multiple Linear Regression Analysis , SIS and DC-SIS have same result and ITRRS has the worst performance.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/55329
URI: http://doi.org/10.58837/CHULA.THE.2016.1184
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2016.1184
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
5881527926.pdf1.84 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.