Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/28563
Title: การเปรียบเทียบวิธีการประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้น
Other Titles: Comparison of the estimation methods for missing data in multiple linear regression
Authors: เพียงออ ยีสา
Advisors: กัลยา วานิชย์บัญชา
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: [email protected], [email protected]
Subjects: การวิเคราะห์การถดถอย
Issue Date: 2551
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในการวิเคราะห์การถดถอยเชิงเส้นพหุเพื่อการพยากรณ์โดยพิจารณาข้อมูล 2 ลักษณะ คือ ข้อมูลภาคตัดขวาง และข้อมูลอนุกรมเวลาที่มีปัจจัยด้านแนวโน้ม และปัจจัยฤดูกาลเข้ามาเกี่ยวข้องโดยทำการประมาณค่าสูญหายด้วยวิธี Regression Imputation (RI) วิธี Nearest Neighbor Imputation (NNI) วิธี Weighted Nearest Neighbor and Regression Imputation (WNR) และวิธี EM algorithm (EM) เกณฑ์ในการเปรียบเทียบประสิทธิภาพในการประมาณค่าสูญหายจะใช้ค่า MAPE ผลการวิจัยสรุปได้ดังนี้ สำหรับข้อมูลภาคตัดขวาง กรณีที่ค่าสหสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระทั้ง 2 ตัวสูง เมื่อส่วนเบี่ยงเบนมาตรฐานอยู่ในระดับต่ำถึงปานกลางวิธี RI และ EM มีค่า MAPE ต่ำกว่าวิธีอื่น เมื่อส่วนเบี่ยงเบนมาตรฐานอยู่ในระดับสูงวิธี WNR ให้ผลดีกว่าวิธีอื่นๆ ที่นำมาเปรียบเทียบ กรณีที่ค่าสหสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระตัวหนึ่งสูงมากและอีกตัวหนึ่งปานกลาง วิธี RI และ EM จะให้ผลดีกว่าวิธีอื่นๆ สำหรับข้อมูลอนุกรมเวลา วิธี WNR มีค่า MAPE ต่ำกว่าวิธีการประมาณค่าอื่นๆในกรณีที่ข้อมูลที่มีอิทธิพลของฤดูกาลสูง และวิธี NNI จะให้ผลดีเมื่อส่วนเบี่ยงเบนมาตรฐานอยู่ในระดับสูง สำหรับข้อมูลที่มีอิทธิพลจากปัจจัยแนวโน้มสูงวิธี RI และ EM เป็นวิธีที่ให้ผลดีกว่าวิธีอื่นๆที่นำมาเปรียบเทียบ กรณีที่ข้อมูลมีอิทธิพลจากปัจจัยแนวโน้มและปัจจัยฤดูกาลระดับปานกลาง เมื่อส่วนเบี่ยงเบนมาตรฐานอยู่ในระดับต่ำ วิธี RI และ EM มีค่า MAPE ต่ำกว่าวิธีการประมาณค่าอื่นๆ เมื่อส่วนเบี่ยงเบนมาตรฐานเพิ่มสูงขึ้น วิธี WNR เป็นวิธีที่มีค่า MAPE ต่ำกว่าวิธีการประมาณค่าอื่นๆที่นำมาเปรียบเทียบ
Other Abstract: The purpose of this research is to study and compare the estimation methods for missing data of the dependent variable in multiple linear regression equation for forecasting. In this study, we focus on cross-sectional data and time series data, which involves trend and seasonal factor. The methods used to estimate missing data are Regression Imputation (RI), Nearest Neighbor Imputation (NNI), Weighted Nearest Neighbor and Regression Imputation (WNR) and EM algorithm method. The criterion of determination is Mean Absolute Percentage Error (MAPE). The result for cross-sectional data shows that when correlation between dependent variable and two independent variables is high, the MAPE of RI and EM are lower than the MAPE of other methods which standard deviation is from low to medium level. The MAPE of WNR is the lowest when standard deviation is high. In the case when correlation between dependent and independent variable is high and medium, it is found that RI and EM are better than other methods. In case of time series data, WNR is better than other methods for high influence from seasonal factor. However, if standard deviation increases, NNI is more suitable. The MAPE of RI and EM are lower than MAPE of other methods for high influence from trend factor. For medium influence from trend and seasonal factor, the MAPE of RI and EM are lower than other methods when standard deviation is low. If standard deviation increases, the MAPE of WNR is the lowest.
Description: วิทยานิพนธ์ (สต.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2551
Degree Name: สถิติศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/28563
URI: http://doi.org/10.14457/CU.the.2008.1868
metadata.dc.identifier.DOI: 10.14457/CU.the.2008.1868
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
Peang – or_ye.pdf1.6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.