Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/21956
Title: การตรวจจับเว็บสแปมโดยอาศัยการวิเคราะห์บูสเพจ
Other Titles: Web spam detection based on boosted page analysis
Authors: ชาคริต ลิขิตขจร
Advisors: อรรถสิทธิ์ สุรฤกษ์
อานนท์ รุ่งสว่าง
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: [email protected]
ไม่มีข้อมูล
Subjects: เว็บเซอร์วิส
เว็บไซต์
การค้นหาทางอินเตอร์เน็ต
Web services
Web services
Web sites
Internet searching
Issue Date: 2554
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยในการตรวจจับเว็บสแปมโดยทั่วไปจะมีจุดมุ่งหมายหลักในการค้นหาลักษณะเฉพาะของเว็บที่เป็นเว็บสแปม เนื่องจากว่าเว็บสแปมคือเว็บที่ใช้วิธีการพิเศษในการทำให้เว็บเพจของตนเองได้ลำดับสูงกว่าที่ควร ซึ่งในการทำให้เว็บเพจของตนได้ลำดับสูงนั้นจะต้องทำให้ระบบสืบค้นมองเว็บเพจของตนเองว่าได้รับความนิยมสูง เว็บสแปมจะมีการสร้างเว็บเพจที่มีหน้าที่เพิ่มคะแนนความนิยมของตนเอง ซึ่งเว็บเพจเหล่านี้จะเรียกว่า บูสต์เพจ ดังนั้นจึงได้ทำการพัฒนาระบบการตรวจจับเว็บสแปมโดยเริ่มต้นจากวิเคราะห์และตรวจสอบเว็บเพจที่เป็นบูสเพจ แทนที่จะตรวจจับเว็บเพจที่เป็นเว็บสแปมโดยตรง โดยอาศัยลักษณะโครงสร้างความสัมพันธ์ระหว่างเว็บเพจที่เป็นบูสเพจกับเว็บเพจที่เป็นสแปมเป็นตัวชี้วัด แล้วหลังจากนั้นจึงนำเว็บเพจที่เป็นบูสเพจมาเป็นเครื่องมือช่วยหาเว็บเพจที่เป็นเว็บสแปม โดยดูจากโครงสร้างและความสัมพันธ์ระหว่างเว็บสแปมกับบูสต์เพจ และเพจสแปมกับเพจธรรมดา ผลการทดลองพบว่ามีประสิทธิภาพและความแม่นยำในการตรวจจับในระดับที่ดี เมื่อเปรียบเทียบกับงานวิจัยในการตรวจจับเว็บสแปมอื่น ผลลัพธ์จากการตรวจจับเว็บสแปมโดยการวิเคราะห์บูสเพจให้ผลเป็นที่น่าพอใจ
Other Abstract: Generally, research on web spam detection focus on determining characteristic of web spam pages. Since web spam technique is a technique which make target web pages have higher-than-deserve rank in search engine results, these technique must deceived search engine to make target pages look better than it should be. Web spammer try to make their target pages look popular by create many pages to increase popularity score. These pages are call boosted pages. So we introduced new web spam detection algorithm start from analyzing and detecting boosted pages instead of web spam pages. We use links and relationship between boosted pages and web spam pages to determine boosted pages. Then boosted pages will be used for detecting web spam pages by determining difference in relationship between boosted pages and normal pages and relationship between boosted pages and spam pages. Results show that this algorithm produced good accuracy in detecting web spam compared to other web spam detection research. Determining boosted pages can help improve web spam detection to have higher accuracy.
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2554
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/21956
URI: http://doi.org/10.14457/CU.the.2011.520
metadata.dc.identifier.DOI: 10.14457/CU.the.2011.520
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
chakrit_li.pdf1.5 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.