Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/65137
Title: กลไกจุดสนใจแบบเน็ตเวิร์กละเอียดสำหรับการจำแนกประเภทของรูปภาพอาหาร
Other Titles: Attentional fine-grained network for food image categorization
Authors: วศิณี นุชศิริ
Advisors: พีรพล เวทีกูล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: [email protected]
Issue Date: 2562
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ในปัจจุบัน มีจำนวนรูปภาพอาหารมากมายที่ถูกอัพโหลดผ่านเครือข่ายสังคม โดยรูปภาพส่วนหนึ่งไม่ได้รับการระบุป้ายชื่ออาหาร การใช้แอปพลิเคชันสำหรับการจำแนกประเภทรูปภาพของอาหาร สามารถช่วยระบุป้ายชื่อ และจัดจำแนกประเภทของรูปภาพอาหารเหล่านั้นได้  ปัญหาของงานจำแนกประเภทของรูปภาพอาหาร จัดเป็นงานที่ค่อนข้างมีความซับซ้อน เนื่องจากจำนวนของประเภทอาหารมีมากกว่าหนึ่งร้อยประเภท และอาหารบางประเภทยังมีลักษณะที่แตกต่างกันเล็กน้อย ไม่ว่าจะเป็นประเภทของส่วนผสม หรือลักษณะการจัดวางจาน ซึ่งปัญหาเหล่านี้นำไปสู่งานที่เรียกว่า งานจำแนกประเภทรูปภาพแบบละเอียด (Fine-grained Image Classification) ในปัจจุบันแบบจำลองนิวรอลเน็ตเวิร์กแบบคอนโวลูชันเชิงเส้นคู่ (Bilinear Convolutional Neural Networks หรือ B-CNN) ถูกนำมาใช้ในการจำแนกประเภทของรูปภาพอาหาร เนื่องจากแบบจำลองนี้มีความแม่นยำในการจำแนกประเภทของรูปภาพสูง และสามารถสกัดลักษณะของรูปภาพออกมาอย่างหลากหลาย เพื่อโฟกัสรายละเอียดของอาหารในแต่ละประเภท  แต่เนื่องจากคุณลักษณะของรูปภาพที่ถูกสกัดมานั้น บางลักษณะอาจจะไม่ได้มีความสำคัญต่อรูปภาพนั้น ๆ ด้วยเหตุผลดังกล่าว งานวิจัยนี้จึงได้นำเสนอกลไกจุดสนใจ (Attention Mechanism) มาสกัดลักษณะที่จำเพาะของรูปภาพอาหารในแต่ละประเภท อีกทั้งงานวิจัยนี้เลือกคอนโวลูชันเน็ตเวิร์กที่มีประสิทธิภาพในการจำแนกประเภทของรูปภาพดีกว่าคอนโวลูชันเน็ตเวิร์กแบบอื่น ๆ ในปัจจุบัน คือ อินเซ็บชันเวอร์ชันสาม และ อินเซ็บชันเรสเน็ตเวอร์ชันสอง (Inception-Resnet-v2 หรือ In-res-v2) มาเป็นตัวสกัดลักษณะของรูปภาพ โดยงานวิจัยนี้ได้ทำการทดลองกับชุดข้อมูลเชิงรูปภาพ จาก Wongnai ซึ่งเป็นแอปพลิเคชันสำหรับการอัปโหลดรูปภาพอาหาร โดยผลการทดลองพบว่าแบบจำลองที่ได้นำเสนอ มีประสิทธิภาพในการจำแนกประเภทของรูปภาพอาหารได้อย่างถูกต้องแม่นยำมากขึ้นเมื่อเปรียบเทียบกับแบบจำลองอื่น ๆ
Other Abstract: Nowadays, many food images are posted on various social network platforms without identification labels. An automatic food categorization application would greatly help to identify and classify food categories. Food categorization is a complex problem since the number of category types can be more than one hundred.  Many kinds of food are similar with only subtle differences in taste and presentation and this can lead to a problem called “fine-grained issue”. Recently, a bilinear model was employed which showed good accuracy and generated excessive features to capture details among different food categories, albeit with limited performance. Diverse food categories require disparate sets of features. Here, an attention mechanism was applied to capture suitable features and specifically identify each food category. Furthermore, the performance of a bilinear backbone was also enhanced by applying Inception in correlation with Inception-ResNet-v2 and Inception-v3 networks. The experiment was conducted on the Wongnai dataset containing various images that were separated into 83 classes. Results showed that our attentional model outperformed the traditional bilinear model. 
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2562
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/65137
URI: http://doi.org/10.58837/CHULA.THE.2019.1139
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2019.1139
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
6071026721.pdf2.69 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.