โครงข่ายประสาทเทียมได้รับการฝึกฝนให้จดจำใบหน้าในวิดีโอโดยอิงจากภาพถ่ายตัวอย่างหนึ่งภาพ เราสอนโครงข่ายประสาทเทียมให้จดจำชุดและรองเท้าได้อย่างไร

นักวิจัย HSE ได้เสนอวิธีการใหม่ในการจดจำผู้คนในวิดีโอโดยใช้โครงข่ายประสาทเทียมระดับลึก วิธีการนี้ไม่จำเป็นต้องมีรูปถ่ายจำนวนมาก สามารถปรับปรุงความแม่นยำในการจดจำได้อย่างมากเมื่อเทียบกับระบบแอนะล็อกที่รู้จักก่อนหน้านี้ แม้ว่าจะมีรูปถ่ายด้านหน้าของบุคคลเพียงรูปเดียวก็ตาม ผลงานนี้ตีพิมพ์ในบทความเรื่อง "Fuzzy Analysis and Deep Convolution Neural Networks in Still-to-video Recognition" และ "Unconstrained Face Identificationโดยใช้ Maximum Likelihood of Distances Between Deep Off-the-shelf Features"

ระบบจดจำใบหน้ามีการพัฒนาอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา ปัจจุบันมีการใช้เทคโนโลยีการตรวจสอบและการระบุตัวตนที่คล้ายกันในหลากหลายด้าน ตั้งแต่การต่อสู้กับการก่อการร้ายไปจนถึงโซเชียลเน็ตเวิร์กและแอปพลิเคชันบนมือถือ

การรับรู้สามารถเกิดขึ้นได้ ในรูปแบบที่แตกต่างกันแต่ใน เมื่อเร็วๆ นี้ผลลัพธ์ที่ดีที่สุดแสดงให้เห็นได้จากโครงข่ายประสาทเทียมที่มีความแม่นยำสูงเป็นพิเศษ ในเวลาเดียวกัน ยิ่งมีตัวอย่างภาพที่โครงข่ายประสาทเทียมแสดงมากเท่าใด ก็จะยิ่งทำงานได้ดีขึ้นเท่านั้น ในระหว่างกระบวนการเรียนรู้ ระบบจะระบุคุณลักษณะหลักและสร้างการเชื่อมโยงระหว่างคุณลักษณะเหล่านั้น จากนั้นใช้ความรู้ที่ได้รับเพื่อจดจำภาพที่ไม่รู้จัก

ชุดภาพถ่ายที่ใช้ฝึกโครงข่ายประสาทเทียมมีเพิ่มมากขึ้นเรื่อยๆ สำหรับข้อมูลที่ควบคุม (ซึ่งมีตำแหน่งเดียวกันในเฟรม แสง ฯลฯ) ความแม่นยำของอัลกอริธึมให้ผลลัพธ์ที่เทียบเท่ากับของมนุษย์มายาวนาน แต่การได้รับความแม่นยำสูงในการจดจำข้อมูลวิดีโอที่รวบรวมในสภาวะที่ไม่สามารถควบคุมได้โดยมีแสง มุม และขนาดที่แตกต่างกันยังคงเป็นเรื่องยาก

“เครือข่ายสามารถจดจำได้อย่างแม่นยำ 100% เช่น ดาราชื่อดัง (จำนวนภาพที่อยู่บนเครือข่ายเป็นล้าน) แต่นี่ไม่ได้หมายความว่าเมื่อถ่ายโอนความรู้ที่สะสมในโครงข่ายประสาทเทียม มันจะปรับและจดจำบุคคลที่มีรูปถ่ายเพียงรูปเดียวเป็นตัวอย่าง” ศาสตราจารย์ภาควิชาอธิบาย ระบบสารสนเทศและเทคโนโลยีของ National Research University Higher School of Economics ใน Nizhny Novgorod Andrey Savchenko

เพื่อที่จะแก้ปัญหานี้ นักวิจัย HSE ใช้ทฤษฎีเซตคลุมเครือและทฤษฎีความน่าจะเป็น พวกเขาพัฒนาอัลกอริธึมที่สามารถเพิ่มความแม่นยำได้อย่างมาก (2-6% เมื่อเทียบกับการทดลองที่ดำเนินการก่อนหน้านี้) ในการระบุใบหน้าจากวิดีโอแบบเรียลไทม์ด้วยรูปภาพจำนวนจำกัด โซลูชันนี้ทำงานร่วมกับสถาปัตยกรรมเครือข่ายประสาทเทียม VGGFace, VGGFace2, ResFace และ LightCNN

นักวิจัยใช้ชุดข้อมูลแบบดั้งเดิมหลายชุดในการประเมินวิธีการจดจำใบหน้าของวิดีโอ - IJB-A (IARPA Janus Benchmark A) และ YTF (YouTube Faces) เป็นฐานการทดสอบ ชุดเหล่านี้ประกอบด้วยรูปภาพบุคคลที่มีชื่อเสียงที่เปิดเผยต่อสาธารณะ (นักแสดง นักการเมือง บุคคลสาธารณะ) ซึ่งรวบรวมจากโอเพ่นซอร์สในสภาพที่ไม่สามารถควบคุมได้ เวลาที่ต่างกัน- อัลกอริธึมควรจดจำใบหน้าในวิดีโอ YouTube โดยใช้ภาพถ่ายหลายรูปของคนคนเดียวกันจากชุดข้อมูลอื่น - LFW (Labeled Faces in the Wild) เป็นตัวอย่าง LFW ใช้ความละเอียดสูงกว่าและถ่ายภาพในช่วงเวลาที่ต่างกัน ตั้งแต่ช่วงปี 1970 ถึงปี 2010

วิธีทำงานของวิธีนี้คือการใช้ข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างภาพถ่ายอ้างอิงแต่ละภาพ เช่น ใกล้หรือไกลจากกัน การเชื่อมต่อ (ระยะทางในแบบจำลองทางคณิตศาสตร์) ระหว่างคนที่คล้ายกันจะมีน้อยกว่า และระหว่างคนที่ต่างกันจะมีขนาดใหญ่กว่า การรู้ว่าผู้คนมีความแตกต่างกันอย่างไรทำให้ระบบสามารถแก้ไขข้อผิดพลาดในกระบวนการจดจำเฟรมวิดีโอได้

“อัลกอริธึมจะประเมินว่าเฟรมหนึ่งอยู่ใกล้คนๆ หนึ่งและอีกเฟรมหนึ่งอยู่ใกล้กันมากเพียงใด จากนั้นเขาก็เปรียบเทียบว่าคนสองคนมีความคล้ายคลึงกันมากแค่ไหน จากนั้นเขาก็เพิ่มบุคคลที่สามและประเมินว่าเขาใกล้ชิดกับใครมากที่สุด - คนแรกหรือคนที่สอง จากความใกล้ชิดนี้ จะช่วยแก้ไขข้อผิดพลาดในการจดจำอีกครั้ง” ศาสตราจารย์ Savchenko กล่าว

อัลกอริทึมนี้ได้ถูกนำไปใช้แล้วสำหรับ คอมพิวเตอร์ตั้งโต๊ะใน Python ซึ่งช่วยให้คุณค้นหาและจัดกลุ่มใบหน้าของบุคคลต่างๆ ในอัลบั้มรูปภาพ ประมาณการปีเกิด เพศ และพารามิเตอร์อื่นๆ ต้นแบบของแอปพลิเคชัน Android ได้รับการพัฒนาขึ้นเพื่อตรวจจับอายุและเพศของบุคคลในรูปถ่ายและวิดีโอ การวิเคราะห์แกลเลอรีรูปภาพทำให้สามารถประเมินระดับกิจกรรมทางสังคมของผู้ใช้ได้โดยอัตโนมัติและเน้นเพื่อนสนิทและญาติของเขา สำหรับ สมาร์ทโฟนสมัยใหม่แอปพลิเคชันต้นแบบประมวลผล 15 เฟรมต่อวินาที นักวิจัยอ้างว่าด้วยอัลกอริธึมที่พัฒนาขึ้น การจดจำใบหน้าจึงมีความแม่นยำมากขึ้น

การอ่านเรเชตเนฟ 2017

การแก้ปัญหาการจดจำใบหน้าและครอบครัวโดยใช้เครือข่ายประสาทเทียม

D.V. Plotnikov*, E.A. Sopov

ไซบีเรียน มหาวิทยาลัยของรัฐวิทยาศาสตร์และเทคโนโลยีตั้งชื่อตามนักวิชาการ M. F. Reshetnev สหพันธรัฐรัสเซีย, 660037, ครัสโนยาสค์, ave. พวกเขา. แก๊ส. "คนงานครัสโนยาสค์", 31

E-shaP: [ป้องกันอีเมล]

ได้ทำการศึกษาทดลองประสิทธิภาพของโครงข่ายประสาทเทียมในการแก้ปัญหาการจดจำใบหน้าและการแสดงออกทางสีหน้าของมนุษย์

คำหลัก: โครงข่ายประสาทเทียม, การจดจำใบหน้า, การจดจำการแสดงออกทางสีหน้า

การแก้ปัญหางานการจดจำใบหน้าและการแสดงออกทางสีหน้าโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional

D.V. Plotnikov*, E.A. Sopov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation อีเมล์: [ป้องกันอีเมล]

บทความนี้ทำการวิจัยเชิงทดลองเกี่ยวกับประสิทธิภาพของเครือข่ายประสาทเทียมที่ดำเนินการกับงานการจดจำใบหน้าและการจดจำใบหน้า

คำสำคัญ: โครงข่ายประสาทเทียม การจดจำใบหน้า การจดจำการแสดงออกทางสีหน้า

การแนะนำ. ความต้องการของมนุษย์ในการพัฒนาเทคโนโลยีการจดจำใบหน้านั้นมีมานานแล้ว ปัจจุบัน อัลกอริธึมดังกล่าวพบการใช้งานในหลายด้าน เช่น ระบบความปลอดภัย การตรวจสอบ ฯลฯ แน่นอนว่าอัลกอริธึมได้รับการปรับปรุงอย่างต่อเนื่องและแสดงผลลัพธ์ที่ดีขึ้น หนึ่งในอัลกอริธึมเหล่านี้คือเครือข่ายประสาทเทียมซึ่งสามารถทำงานกับรูปภาพและสตรีมวิดีโอใด ๆ ได้เนื่องจากโครงสร้างและอัลกอริธึมที่ใช้ในเครือข่ายนี้

บทความนี้วิเคราะห์ประสิทธิภาพของ CNN ด้วยงานการจดจำต่างๆ ได้แก่ การจดจำใบหน้าและการแสดงออกทางสีหน้าของมนุษย์ เนื่องจากแต่ละงานการรับรู้มี คุณสมบัติที่เป็นเอกลักษณ์(ซึ่งอาจเป็น: จำนวนตัวอย่างการฝึกอบรมและการทดสอบ มิติข้อมูล จำนวนคลาส ฯลฯ) คำถามต่อไปนี้เกิดขึ้น: เป็นไปได้เสมอไหมที่จะได้รับประสิทธิภาพสูงของอัลกอริทึม (CNN) โดยใช้การกำหนดค่าแบบคลาสสิกเท่านั้น และไฮเปอร์พารามิเตอร์ของโมเดลที่เพิ่มขึ้นมักจะนำไปสู่การเพิ่มประสิทธิภาพหรือไม่

เลือกงานทดสอบต่อไปนี้: “ฐานข้อมูล ORL ของใบหน้า” และ “การจดจำการแสดงออกทางสีหน้า 2013”

ฐานข้อมูล "ฐานข้อมูล ORL ของใบหน้า" งานทดสอบแรกคือปัญหาการจดจำใบหน้า ฐานข้อมูลประกอบด้วยรูปถ่าย 400 รูปของบุคคลสี่สิบคน (รูปที่ 1) ภาพถ่ายทั้งหมดจะถูกนำเสนอในระดับสีเทา ตัวอย่างการทดสอบมีดังต่อไปนี้: คุณต้องสุ่มเลือกภาพถ่ายของแต่ละคนหนึ่งภาพ อัลกอริธึมที่พัฒนาขึ้นจะต้องจำแนกประเภทที่เหลืออีก 40 ภาพตามภาพถ่ายการฝึกอบรม 360 ภาพ กล่าวคือ ระบุบุคคลที่ปรากฎในภาพเหล่านั้น

ฐานข้อมูล "การจดจำการแสดงออกทางสีหน้า 2556" งานทดสอบที่สองคือปัญหาการรับรู้อารมณ์ ฐานข้อมูลคือชุดภาพของบุคคลที่มีการแสดงออกทางสีหน้าที่แตกต่างกัน บุคคลในภาพอาจโกรธ รังเกียจ กลัว มีความสุข เศร้า ประหลาดใจ หรือสงบสติอารมณ์

ข้าว. 1. ตัวอย่างภาพถ่ายที่ถ่ายจากฐานข้อมูล ORL ของใบหน้า

วิธีทางคณิตศาสตร์ในการสร้างแบบจำลอง การจัดการ และการวิเคราะห์ข้อมูล

ข้าว. 2. ตัวอย่างภาพถ่ายจากฐานข้อมูล “The Facial Expression Recognition 2013”

โครงสร้างของโครงข่ายประสาทเทียมสำหรับการทำงานกับ “ฐานข้อมูล ORL ของใบหน้า”

หมายเลขเลเยอร์ พารามิเตอร์เลเยอร์

จำนวนแกน ขนาดแกน ฟังก์ชันการเปิดใช้งาน

1 ชั้น Convolutional 1 20 5x5 แทนเจนต์ไฮเปอร์โบลิก

3 ชั้น Convolutional 2 50 5x5 แทนเจนต์ไฮเปอร์โบลิก

ขนาดการโนโวลูชัน ฟังก์ชันการโนโวลูชั่น

2 ดาวน์สุ่มเลเยอร์ 1 2x2 ฟังก์ชั่นสูงสุด

4 ดาวน์สุ่มเลเยอร์ 2 2x2 ฟังก์ชั่นสูงสุด

จำนวนฟังก์ชันการเปิดใช้งานเซลล์ประสาท

5 เลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์ 1 500 แทนเจนต์ไฮเปอร์โบลิก

6 เลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์ 2 40 แทนเจนต์ไฮเปอร์โบลิก

โครงสร้างที่ 1 โครงสร้างที่ 2

ข้าว. 3. พลวัตของประสิทธิภาพการฝึกอบรมของ CNN (โครงสร้าง 1 และโครงสร้าง 2)

กลุ่มตัวอย่างประกอบด้วยการฝึกอบรม 28,709 รายการ และตัวอย่างการทดสอบ 7,178 รายการ แต่ละภาพมีความละเอียด 48x48 พิกเซล

ผลการทดลอง ฐานข้อมูล "ฐานข้อมูล ORL ของใบหน้า" หลักการทำงานของ CNN สามารถพบได้ใน

ในระหว่างการทำงาน โครงสร้างอื่นๆ ยังถูกนำมาใช้เพื่อทำงานกับฐานข้อมูล “ฐานข้อมูล ORL ของใบหน้า” อย่างไรก็ตาม กลับกลายเป็นว่าไม่ได้ผล ประการหนึ่ง การกำหนดค่าที่ซับซ้อนและเน้นการคำนวณไม่ได้แสดงผลลัพธ์ที่ดีขึ้น และโครงสร้างที่เรียบง่ายกว่าก็ไม่สามารถฝึกฝนได้เลย ดังนั้น กรอบงานที่ได้รับการฝึกอบรมที่ดีที่สุดจึงบรรลุประสิทธิภาพการจำแนกประเภทที่ 97.5%

ฐานข้อมูล "การจดจำการแสดงออกทางสีหน้า 2556" เนื่องจากขนาดของปัญหานี้ค่อนข้างใหญ่ จึงตัดสินใจลดขนาดลง (เหลือ 28x28) ในกรณีนี้ รูปภาพที่มีขนาดเล็กกว่าจะถูกป้อนไปยังอินพุตของโครงข่ายประสาทเทียม การปฏิบัติแสดงให้เห็นว่าเวลาการฝึกอบรมของ CNN ที่มีรูปภาพอินพุต 48x48 พิกเซลนั้นนานกว่ารูปภาพอินพุต 28x28 พิกเซลถึง 4 เท่า นอกจากนี้ พลวัตการเรียนรู้ผ่านเครือข่ายยังคงแทบไม่เปลี่ยนแปลง

ขั้นต่อไปคือการทดสอบสมมติฐานว่าค่าของไฮเปอร์พารามิเตอร์ของ CNN ส่งผลต่อความเร็ว

การฝึกอบรม. ในการแก้ปัญหานี้มีการใช้โครงสร้างสองแบบ: โครงสร้าง 1 - เหมือนกับโครงสร้างที่ใช้ในการทำงานกับฐานข้อมูล "ฐานข้อมูล ORL ของใบหน้า"

โครงสร้าง 2 คือโครงสร้าง 1 ที่มีค่าไฮเปอร์พารามิเตอร์เพิ่มขึ้น (ตอนนี้จำนวนเมล็ดของเลเยอร์ convolutional แรก = 50, เลเยอร์ convolutional ที่สอง = 125) (รูปที่ 3)

ในรูป 3: แกน x - การวนซ้ำการฝึกเครือข่าย แกน y - ความแม่นยำในการฝึก จะเห็นได้ว่าที่การวนซ้ำ 125 โครงสร้าง 1 ถึงระดับความซบเซา ในขณะที่โครงสร้าง 2 ยังคงเพิ่มความแม่นยำในการจดจำต่อไป

ข้อสรุป ผลการวิจัยพบว่าในการแก้ปัญหาต่างๆ ของการจดจำใบหน้า (หรืออารมณ์) ของมนุษย์ การใช้โครงสร้างแบบคลาสสิกเดียวกันอาจไม่ได้ผล จำเป็นต้องดำเนินการตามเป้าหมายและแสวงหาการประนีประนอมระหว่างประสิทธิภาพและพลังการประมวลผลของฮาร์ดแวร์ เนื่องจากเวลาทำงานของ CNN มีความอ่อนไหวอย่างยิ่งต่อขนาดของข้อมูลอินพุต และผลลัพธ์จะไม่ขึ้นอยู่กับขนาดของข้อมูลเสมอไป ตัวอย่างการฝึกอบรม เมื่อทำงานกับโครงสร้างที่ซับซ้อน การประมวลผลข้อมูลล่วงหน้า และ การปรับแต่งอย่างละเอียดเครือข่าย

ทิศทางนี้จะเป็นเป้าหมายของการวิจัยเพิ่มเติม

พิเวมฮีคคเย อูมHUH. 2017

1. การจดจำใบหน้า: วิธีเครือข่ายประสาทเทียมแบบหมุนวน / S. Lawrence, C. L. Giles, Ah Chung Tsoi และ A. D. Back // IEEE Trans โครงข่ายประสาทเทียม 2540. ฉบับ. 8 หมายเลข 1 หน้า 98-113.

2. Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks, Adv. ข้อมูลระบบประสาท กระบวนการ. ระบบ 2555 หน้า 1-9.

3. LeCun Y., Boser B., Denker J. S. และคณะ Backpropa-gation ใช้กับการรับรู้รหัสไปรษณีย์ที่เขียนด้วยลายมือ คอมพิวเตอร์ประสาท พ.ศ. 2532 ลำดับที่ 1 (4) ป.541-551.

4. Lin M., Chen Q., Yan S. เครือข่ายในเครือข่าย การเตรียม arXiv 2013:10.

5. Sopov E., Ivanov I. ออกแบบเทคโนโลยีที่มีประสิทธิภาพสำหรับการวิเคราะห์ภาพบริบทในกล่องโต้ตอบ HCI โดยใช้อัลกอริธึมทางพันธุกรรมการค้นหาที่แปลกใหม่ที่กำหนดค่าด้วยตนเอง หุ่นยนต์ควบคุมอัตโนมัติสารสนเทศ (ICINCO), 2014. การประชุมนานาชาติครั้งที่ 11. 2557 ฉบับที่ 2 หน้า 832-839.

© nn0THHK0B ชั้น. บี., ConoB อี.เอ., 2017

คุณบอกว่าการค้นหาเสื้อผ้าโดยใช้รูปถ่ายจากโทรศัพท์ของคุณนั้นมีไว้สำหรับเด็กผู้หญิง คุณบอกว่านี่ไม่ใช่สำหรับผู้เชี่ยวชาญด้านไอทีที่จริงจัง โดยทั่วไปแล้ว เทคโนโลยีทางวิทยาศาสตร์ขั้นสูงอยู่ที่ไหน และอืม... โลกแห่งแฟชั่นวานิลลาและความเย้ายวนใจอยู่ที่ไหน?

เมื่ออายุ 11 ปี เรากลายเป็นผู้อยู่อาศัยในกลุ่ม Skolkovo IT และต่อมาได้เซ็นสัญญากับ Odnoklassniki เพื่อพัฒนาโปรแกรมคอมพิวเตอร์ที่ซับซ้อนสำหรับการตรวจจับใบหน้า เราก็คิดเช่นเดียวกัน เช่น เราจะทำงานในสาขาวิทยาศาสตร์เจ๋งๆ ไปตลอดชีวิต ไม่มีของหวานสำหรับคุณ

แต่ในเวลาต่อมา เมื่อศึกษาสถิติโลกเกี่ยวกับการค้นหาด้วยภาพ การค้าออนไลน์และบนมือถือ แนวโน้มทั่วไปในตลาดค้าปลีกทั่วโลก เราพบว่าความสนใจทางธุรกิจในการรับรู้เสื้อผ้า รองเท้า และเครื่องประดับบนมือถือ (ภายในทีมเราเรียกสิ่งนี้ว่าแฟชั่น ) กำลังเติบโตอย่างรวดเร็ว

มาอธิบายกันดีกว่า

ตัวเลขบางตัว

อุตสาหกรรมเสื้อผ้า แฟชั่น และสินค้าฟุ่มเฟือยเป็นตลาดที่มีศักยภาพมาก นักการตลาดและนักการเงินที่ McKinsey กล่าวในการศึกษาว่าอุตสาหกรรมเครื่องแต่งกายทั่วโลกจะเติบโตเป็นเลขสองหลักระหว่างปี 2557 ถึง 2563 ยิ่งไปกว่านั้น การเติบโตจะเกิดขึ้นเนื่องจากตลาดเกิดใหม่ (แน่นอนว่ารัสเซียใช้ที่นี่ด้วย) และส่วนใหญ่มาจากผู้ซื้อชาวเอเชีย (อัตราการขยายตัวของเมืองของจีนในปัจจุบันเร็วกว่ากระบวนการที่คล้ายกันในบริเตนใหญ่ในศตวรรษที่ 19 ถึง 10 เท่า)

หากเราพูดถึงเฉพาะตลาดเสื้อผ้าสตรี ในอีก 12 ปีข้างหน้า ตลาดจะเติบโตมากกว่า 50% ทั่วโลก (ตามการศึกษาของ McKinsey - Unleashing Fashion Growth City by City)

เสื้อผ้าก็จัดไป. เราตระหนักดีว่าตลาดกำลังเติบโต ซึ่งหมายความว่ามีโอกาสในการพัฒนาเทคโนโลยี ดี.

ต่อไปเราเริ่มศึกษาเทรนด์การช้อปปิ้งออนไลน์ เรามองเข้าไปในอเมริกา ในปี 2015 ชาวอเมริกัน 205 ล้านคน (จากประชากร 325 ล้านคน - มากกว่า 60%) ค้นหาสินค้าบนอินเทอร์เน็ต เปรียบเทียบราคา หรือซื้อสินค้าออนไลน์อย่างน้อยหนึ่งครั้ง คาดว่าภายในปี 2562 ตัวเลขนี้จะสูงถึง 224 ล้านคน

แนวโน้มที่คล้ายกันนี้เกิดขึ้นทั่วโลก: การศึกษาสำหรับการประชุมสหประชาชาติว่าด้วยการค้าและการพัฒนาระบุว่าภายในปี 2561 ผู้คนประมาณ 1.623 พันล้านคนทั่วโลกจะซื้อสินค้าและบริการทางออนไลน์ (เทียบกับ 1.039 พันล้านในปี 2556)

ในเวลาเดียวกัน เป็นที่น่าสนใจที่จะทราบว่ากลุ่มการค้าบนมือถือ (นั่นคือ การซื้อจากอุปกรณ์มือถือ) ก็เติบโตขึ้นเช่นกัน ในอเมริกาเพียงประเทศเดียว ตามการคาดการณ์ของ eMarketer รายรับจากการค้าปลีกผ่านมือถือจะสูงถึง 130.12 พันล้านดอลลาร์ในปี 2561 (จาก 56.67 พันล้านดอลลาร์ในปี 2557) ซึ่งมากกว่าสองเท่า

แนวโน้มระดับโลกต่อ "การระดมพล" ของการช้อปปิ้งออนไลน์ก็ชัดเจนเช่นกัน Goldman Sachs เผยแพร่รายงานตามที่ในช่วง 5 ปีที่ผ่านมากลุ่ม m-commerce ในแง่ของจำนวนผู้ใช้จะเพิ่มขึ้น 5 เท่า: จากผู้ใช้ 379 ล้านคนในปี 2556 เป็นผู้ซื้อมากกว่า 1 พันล้านคนในปี 2561 (ควรสังเกตว่ารายงาน ไม่คำนึงถึงการซื้อออนไลน์ในส่วน "การเดินทาง")

จากการวิจัยของ Nielsen ต้องบอกว่าเสื้อผ้าเป็นหมวดหมู่ที่ซื้อบ่อยที่สุดทางออนไลน์ มีเพียงหนังสือ เครื่องใช้สำนักงาน และดนตรีเท่านั้นที่แข่งขันกับเธอได้

โดยพื้นฐานแล้วนี่คือสิ่งที่เกิดขึ้น: ตอนนี้ตลาดการเข้าถึงอินเทอร์เน็ตถึงจุดอิ่มตัวแล้ว การเติบโตของผู้ใช้ชะลอตัวลงอย่างมาก (คาดการณ์ที่ 5-10% ในปีต่อ ๆ ไป) การเติบโตของตลาดสมาร์ทโฟนก็มุ่งหน้าสู่ศูนย์เช่นกัน

ตัวอย่างเช่น ชมการนำเสนอสุนทรพจน์ของ Mark Zuckerberg ในการประชุม Facebook F8

ซึ่งหมายความว่าตลาดอินเทอร์เน็ตและสมาร์ทโฟนได้กลายเป็นสิ่งที่เรียกว่าสินค้าโภคภัณฑ์ สินค้าอุปโภคบริโภค ซึ่งเป็นส่วนหนึ่งของชีวิตประจำวัน แต่การซื้อผ่านอุปกรณ์มือถือเป็นรูปแบบพฤติกรรมใหม่ที่ให้พื้นที่สำหรับการพัฒนาเทคโนโลยีใหม่

ข้อเท็จจริงทั้งหมดนี้ทำหน้าที่เป็นพื้นฐานให้เราคิดว่าเราจะใช้เทคโนโลยีโครงข่ายประสาทเทียมของเราและทำสิ่งที่น่าสนใจและจำเป็นในด้านนี้ได้อย่างไร ดังนั้นในปี 2014 เราจึงเริ่มพัฒนาระบบจดจำเสื้อผ้าเคลื่อนที่

อย่างไรและทำไมต้องสอนระบบให้จดจำชุด?

แนวคิดของการจดจำมือถือนั้นง่ายมาก: ผู้ใช้เห็นสินค้าแฟชั่นบางอย่างที่เขาชอบ (กับคนบนถนน ในหน้าต่างร้านค้า หรือบนปกนิตยสาร) ถ่ายภาพมัน อุปกรณ์เคลื่อนที่, อัพโหลดภาพถ่ายไปยังที่ติดตั้ง แอปพลิเคชันมือถือซึ่งจดจำสินค้าในภาพและเลือกสินค้าที่คล้ายคลึงกันจากการเลือกสรรของร้านค้า แน่นอนว่าสินค้าสามารถซื้อได้ทันที ทั้งหมด.

กล่าวอีกนัยหนึ่ง ความคาดหวังของผู้ใช้จากบริการสามารถลดลงได้สามขั้นตอน: เลื่อย - ถ่ายภาพ - ซื้อ

ในการพัฒนาและสร้างระบบดังกล่าว เราต้องประมวลผลรูปภาพมากกว่า 30,000,000 ภาพ เข้าใจความแตกต่างระหว่างเสื้อสวมหัวและจัมเปอร์ (ยังมีเสื้อสเวตเตอร์และคาร์ดิแกนด้วย ซึ่งล้วนเป็นคนละอย่าง) รองเท้าดาร์บี้และพระสงฆ์ ดัฟเฟิลและสิริ กระเป๋า และเปิด "kunstkamera" ของเรา เช่าหุ่น รู้สึกเหมือนเป็นนักออกแบบแฟชั่นที่อายุน้อย (ไม่ใช่เด็กจริงๆ โอเค) และอื่นๆ อีกมากมาย แต่สิ่งแรกก่อน

เราตัดสินใจสร้างระบบจดจำมือถือ โครงข่ายประสาทเทียม คือแก่นสารของเทคโนโลยีการเรียนรู้เชิงลึก เครือข่ายเลียนแบบการทำงานของเซลล์ประสาทในสมองของมนุษย์ในแง่ของการเรียนรู้และการแก้ไขข้อผิดพลาด: เครือข่ายเรียนรู้อย่างอิสระ (ด้วยข้อมูลการฝึกอบรมที่เพียงพอ) และดำเนินการตามประสบการณ์ก่อนหน้า ทำให้ข้อผิดพลาดน้อยลงในการเรียนรู้ใหม่แต่ละครั้ง

เซลล์ประสาทเป็นองค์ประกอบการคำนวณที่แยกจากกันของเครือข่าย เซลล์ประสาทแต่ละอันเชื่อมต่อกับเซลล์ประสาทของเลเยอร์ก่อนหน้าและถัดไปของเครือข่าย เมื่อไฟล์รูปภาพ วิดีโอ หรือเสียงมาถึงในรูปแบบอินพุต ไฟล์นั้นจะถูกประมวลผลตามลำดับโดยทุกเลเยอร์ของเครือข่าย เครือข่ายสามารถเปลี่ยนการกำหนดค่าได้ (พารามิเตอร์ของเซลล์ประสาทแต่ละตัว) ขึ้นอยู่กับผลลัพธ์

สำหรับงานของเรา โครงข่ายประสาทเทียมนั้นดีเพราะเมื่อได้รับข้อมูลการฝึกตามจำนวนที่ต้องการ โครงข่ายประสาทเทียมจึงสามารถเรียนรู้ที่จะจดจำวัตถุได้เกือบทุกประเภท

ขั้นตอนที่ 1: เรียนรู้ทุกอย่างเกี่ยวกับแฟชั่น

ดังนั้นจากมุมมองทางเทคโนโลยี ระบบควรทำงานตามลำดับต่อไปนี้: การวิเคราะห์ภาพถ่ายที่โหลดโดยระบบ - เน้นบริเวณที่อาจมีผลิตภัณฑ์ - การกำหนดหมวดหมู่ผลิตภัณฑ์ - การแยกวัตถุออกจากพื้นหลัง - การสร้างลายนิ้วมือดิจิทัล ของภาพผลิตภัณฑ์ - ค้นหาผลิตภัณฑ์ที่คล้ายกันในหมวดหมู่ที่กำหนด

ประเด็นแรกในแผน R&D คือการสร้างการจำแนกประเภทแฟชั่นที่ถูกต้อง ครบถ้วน และแม่นยำ

เราตัดสินใจเริ่มต้นด้วยการจำแนกประเภทของรองเท้า และสำหรับผู้หญิงดูเหมือนว่ามันจะง่ายกว่าสำหรับเรา (เราน่าจะข้ามตัวเองไปได้แล้วเจ้าเด็กโง่เขลา) เราเข้าใจ: เพื่อให้ระบบจดจำหมวดหมู่ได้อย่างถูกต้อง เราจำเป็นต้องมีการจำแนกประเภทของรองเท้าผู้หญิงโดยละเอียด พวกเขาใช้วิกิพีเดีย พจนานุกรมอธิบาย เว็บไซต์ร้านรองเท้าออนไลน์ และรูปภาพจาก Google ในลักษณะนี้:

ควบคู่ไปกับการค้นหาภาพตามหมวดหมู่และการมาร์กอัป เราได้สร้างโฟลเดอร์ภายใน "Kunstkamera" ซึ่งเริ่มได้รับการเติมเต็มด้วยตัวอย่างรองเท้าที่แปลกตา (หรือแม้แต่แปลกมาก) ซึ่งบางส่วนเราต้องการ "ไม่เห็น" ในทันที ตัวอย่างเช่น เรามีนิทรรศการดังต่อไปนี้:

แน่นอนว่าเราไม่ได้ถ่ายภาพดังกล่าวเพื่อฝึกเครือข่าย นี่เพื่อตัวฉันเอง - "แค่หัวเราะ" (c)

และเราก็พบว่ามีรองเท้าแบบยูนิเซ็กซ์ด้วย ตัวอย่างเช่น หมวดหมู่รองเท้า เช่น รองเท้าเอสปาดริล รองเท้าหนังนิ่ม หรือทิมเบอร์แลนด์อาจมีรูปลักษณ์ที่คล้ายคลึงกันมาก ทั้งสำหรับผู้ชายและผู้หญิง

โดยรวมแล้วเราจำแนก 10 หมวดหมู่เป็นแบบ unisex

โดยรวมแล้ว เราระบุหมวดหมู่รองเท้าได้ไม่ถึง 100 หมวดหมู่เล็กน้อย หลังจากนั้นจึงสรุปความท้าทายที่เราเผชิญในขั้นตอนนี้

อันดับแรก- นี่คือการจำแนกประเภทในตัวเอง เราควรเน้นหมวดหมู่ใด พวกมันจะเล็กเกินไปหรือเปล่า? หรือในทางกลับกันขยายใหญ่เกินไป?

ที่นี่เราได้รับความช่วยเหลือจากโครงสร้างของแคตตาล็อกของลูกค้าปลายทางของเรา - ร้านค้าออนไลน์ เรายึดการจัดหมวดหมู่เป็นพื้นฐาน และนำมาสู่รูปแบบที่สามารถตอบสนองความต้องการของเราได้ (เพื่อให้เป็นสากลสำหรับร้านค้าในรัสเซียและอเมริกา ไม่กว้างเกินไปและไม่ละเอียดเกินไป)

ที่สอง– ข้อโต้แย้งในการจำแนกสินค้าบางประเภทเป็นหมวดหมู่ใดประเภทหนึ่ง เช่น นี่คืออะไร? รองเท้าบูทหุ้มข้อหรือรองเท้าผ้าใบ?

ภายนอกดูเหมือนรองเท้าบูทหุ้มข้อ แต่ในเว็บไซต์ของร้านค้าออนไลน์บางแห่งรองเท้าดังกล่าวจัดอยู่ในประเภทรองเท้าผ้าใบ คุณจะรู้ได้อย่างไรว่าลูกค้าจะต้องการค้นหารองเท้าประเภทเดียวกันในหมวดหมู่ใด

ที่สาม– รายละเอียดลักษณนาม บางครั้งฉันก็ต้อง “น่าเบื่อ” และอื่นๆ อีกมากมาย การค้นหาที่แม่นยำเน้นหมวดหมู่เพิ่มเติมที่ไม่เกี่ยวข้องกับหมวดหมู่ร้านค้าเสมอไป (อย่าสับสนกับตัวกรองการค้นหา!) เพื่อให้ได้ผลลัพธ์การจดจำที่ดีขึ้น

นี่คือวิธีที่เรามีรองเท้าบูทหุ้มข้อส้นเตารีด รองเท้าบูทหุ้มข้อส้นกริช รองเท้าบูทหุ้มข้อส้นกว้าง รองเท้าบูทหุ้มข้อบุขน ฯลฯ

ที่สี่– ความยากในการเลือกภาพเป็นบางหมวดหมู่ มีช่วงเวลาหนึ่งที่ภาพรองเท้าเรือสามารถพบได้เฉพาะในแหล่งข้อมูลต่างประเทศเท่านั้น รองเท้าเหล่านี้ยังไม่มีวางจำหน่ายในร้านของเราอย่างกว้างขวาง

และ ล่าสุด- เราไม่เข้าใจว่าเซลล์ประสาทจะมีพฤติกรรมอย่างไรในการกำหนดวัสดุของรองเท้า นั่นคือเครือข่ายสำหรับรองเท้าบูทหนังสูงจะมองหารองเท้าบูทหนังโดยเฉพาะหรือผลการค้นหาจะมีรองเท้าบูททั้งหมดที่มีรูปร่างคล้ายกัน แต่ วัสดุที่แตกต่างกัน?

และส่งผลให้เราไม่รู้ว่าจะแยกประเภทตามวัสดุหรือไม่ เช่น รองเท้าหนัง รองเท้าหนังกลับ รองเท้าผ้า เป็นต้น

สำหรับการทดสอบ เราได้จัดทำ 2 หมวดหมู่: "รองเท้าบูทหนังกลับ" และ "รองเท้าบูทหนัง" (แน่นอนว่าเป็นประเภทที่ทับซ้อนกับหมวดหมู่อื่นๆ - รองเท้าบูทสูง รองเท้าบูทส้นเตารีด และอื่นๆ) เครือข่ายจดจำได้อย่างถูกต้อง แต่ท้ายที่สุดแล้ว เราไม่ได้แบ่งรองเท้าทุกประเภทตามวัสดุออกเป็นประเภทที่ไม่ทับซ้อนกัน ซึ่งไม่จำเป็นเลย แต่เหลือหมวดหมู่ "ที่จัดตั้งขึ้นตามประวัติศาสตร์" ทั้งสองนี้ไว้ งานที่เหมาะสมพวกเขาไม่ได้เข้าไปยุ่ง

โดยทั่วไป หลังจากที่เราเตรียมเครื่องแยกประเภทรองเท้าแล้ว เราก็เริ่มพิจารณาตัวเองว่าเป็นส่วนผสมของ Alexander Vasiliev, Vyacheslav Zaitsev และ Valentin Yudashkin

จดหมายภายในของเรา

จากนั้น โดยใช้หลักการเดียวกันนี้ เราจึงเริ่มแยกแยะกระเป๋าของผู้หญิงและผู้ชาย และจากนั้นก็เสื้อผ้าของผู้หญิงและผู้ชาย

ขั้นตอนที่ 2: ฝึกโครงข่ายประสาทเทียมเพื่อแยกแยะพระภิกษุจากรองเท้าโลฟเฟอร์ และเสื้อสวมหัวจากจัมเปอร์

ดังนั้นเราจึงได้ระบุหมวดหมู่แฟชั่นที่ระบบของเราจะใช้งานได้ ตอนนี้เราจำเป็นต้องฝึกโครงข่ายประสาทเทียมให้จดจำหมวดหมู่ในภาพถ่าย นั่นคือ กำหนดตำแหน่งของวัตถุที่ต้องการในภาพและจำแนกประเภทได้อย่างถูกต้อง

ในการฝึกโครงข่ายประสาทเทียมให้จดจำหมวดหมู่ใดหมวดหมู่หนึ่ง สิ่งแรกที่คุณต้องทำคือเลือกและอัปโหลดลงในเครือข่าย (เราเรียกกระบวนการนี้ว่า "การป้อนเครือข่าย") รูปภาพจำนวนมาก: จากพันถึงหลายแสน

นั่นคือเพื่อที่จะสอนระบบให้จดจำหมวดหมู่ "รองเท้าส้นสูง" คุณต้องดาวน์โหลดรองเท้าส้นสูงสองภาพหรือมากกว่าพันภาพจากอินเทอร์เน็ต หลักการนั้นง่ายมาก: ข้อมูลการฝึกอบรมที่มากขึ้นหมายถึงประสิทธิภาพของเครือข่ายที่ดีขึ้น (การรับรู้ที่แม่นยำยิ่งขึ้น)

การดาวน์โหลดรูปภาพสำหรับการฝึกอบรมเสร็จสิ้นครึ่งหนึ่งโดยอัตโนมัติโดยอัลกอริธึมภายในของเรา และครึ่งหนึ่งด้วยตนเอง หลังจากนั้น อาร์เรย์ของภาพถ่ายจะถูกตรวจสอบเพื่อให้แน่ใจว่าไม่มีภาพซ้ำหรือสุ่มภาพที่ไม่เหมาะสม นอกจากนี้ ไฟล์ทั้งหมดจะได้รับชื่อที่เหมือนกันและรูปแบบเดียวกัน (นามสกุล)

จากนั้นส่วนที่ยากที่สุดก็เริ่มต้นขึ้น: การทำเครื่องหมายผลิตภัณฑ์ในภาพด้วยตนเอง พนักงานของเราวาดกรอบรอบๆ สินค้าในภาพถ่ายและกำหนดหมวดหมู่ของผลิตภัณฑ์

ตัวอย่างเช่น:

นี่เป็นสิ่งจำเป็นสำหรับระบบในการทำความเข้าใจ: สิ่งที่อยู่ในรูปสี่เหลี่ยมผืนผ้านั้นเป็นผลิตภัณฑ์ของหมวดหมู่ใดหมวดหมู่หนึ่ง งานมาร์กใช้เวลามากที่สุด: งานต้องใช้ความอุตสาหะและไม่เคลื่อนที่เร็วมาก หากคุณวัดชั่วโมงการทำงานที่ใช้ในการทำเครื่องหมายในถ้วยกาแฟ ผลลัพธ์ที่ได้จะเป็นเครื่องดื่มที่เติมพลังมากกว่าหนึ่งตัน

คุณกำลังต่อสู้กับอะไร?

ในขั้นตอนการทำเครื่องหมาย การขาดประสบการณ์และการมองการณ์ไกลส่งผลเสีย: หลังจากระบุกระเป๋าและเสื้อผ้าประเภทใหม่แล้ว เราจะต้องแท็กรูปถ่ายรองเท้าที่ทำเครื่องหมายไว้ก่อนหน้านี้ใหม่ให้เป็นผลิตภัณฑ์ใหม่ เนื่องจากขาดการทำเครื่องหมายสำหรับหมวดหมู่ใหม่ ระบบจึงพบเสื้อผ้า แต่เชื่อว่ามีข้อผิดพลาดและเพิ่มผลิตภัณฑ์ที่พบลงใน "พื้นหลัง"

นั่นคือถ้าเราระบุหมวดหมู่รองเท้าเสื้อผ้าและเครื่องประดับที่เป็นไปได้ทั้งหมดก่อน (นำตัวแยกประเภทมาสู่รูปแบบที่เป็นอยู่ตอนนี้) จากนั้นจึงทำเครื่องหมายรูปภาพบน ทั้งหมดหมวดหมู่ต่างๆ ในคราวเดียว เราก็จะประหยัดทรัพยากรได้มาก

ปัญหาคอขวดอีกประการหนึ่งคือพนักงานหลายคนมีส่วนร่วมในการทำเครื่องหมาย และมันเกิดขึ้นที่ทุกคนมีความเข้าใจของตัวเองว่าเสื้อผ้าชิ้นไหนอยู่ในหมวดหมู่ใด (เราเขียนเกี่ยวกับกรณีที่มีข้อขัดแย้งด้านบน) ดังนั้นจึงมีการแต่งตั้งพนักงานที่รับผิดชอบซึ่งยอมรับรูปถ่ายมาร์กอัปจากเพื่อนร่วมงานของเขา และตรวจสอบโฟลเดอร์และรูปภาพทั้งหมดอีกครั้งเพื่อดูความถูกต้องของเครื่องหมาย

นี่คือลักษณะของตัวแยกประเภทแฟชั่นของเราโดยใช้รองเท้าผู้หญิงเป็นตัวอย่าง (หน้าใดหน้าหนึ่ง):

ปัจจุบันโครงข่ายประสาทเทียมถูกนำมาใช้กันอย่างแพร่หลายในการประมวลผลและการจดจำภาพ ในระบบรู้จำเสียง การวิเคราะห์วิดีโอ และการรักษาความปลอดภัยอัจฉริยะ เครือข่ายสร้างดนตรี ( จูเกเด็ค- เวลาอยู่ไม่ไกลเมื่อบอตเครือข่ายประสาทเทียมปรากฏขึ้น แทนที่ความฉลาดของมนุษย์ในกิจกรรมต่างๆ (เช่น ในศูนย์บริการทางโทรศัพท์ที่ให้คำปรึกษาลูกค้าเกี่ยวกับปัญหาพื้นฐาน)

โดยทั่วไปต้องบอกว่ามีคนจำนวนมากที่เกี่ยวข้องกับเครือข่าย นี่คือฉลามของตลาดอินเทอร์เน็ต: "ยานเดกซ์"(เช่น คุณลักษณะล่าสุดสำหรับ Auto.ru - จดจำยี่ห้อและรุ่นของรถยนต์จากรูปภาพ) ไมโครซอฟต์(บริการ What-Dog.net, ระบุสายพันธุ์สุนัขจากภาพถ่าย), Mail.ruและ เฟสบุ๊ค(แผนกหนึ่งของ Facebook AI Research) และแน่นอนว่า Google.แต่สิ่งเหล่านี้ยังเป็นสตาร์ทอัพรุ่นใหม่ (เฉพาะผู้ที่มีเงินทุนเพียงพอสำหรับพลังการประมวลผล)

เครือข่ายกำลังได้รับการศึกษาอย่างขยันขันแข็งในมหาวิทยาลัยเทคนิคทั่วโลก โดยเฉพาะใน MIPT บางทีตอนนี้คุณอาจต้องการมีส่วนร่วมในเครือข่ายด้วย เย็น!

จากนั้นเราจะพูดถึงสองประเด็นที่คุณต้องเตรียมทันที

ให้เราพูดอีกครั้งว่าส่วนสำคัญของเทคโนโลยีคือข้อมูลการฝึกอบรม นี่คือ "แต่" ครั้งแรก เพื่อให้เครือข่ายสามารถแยกแยะวัตถุประเภทหนึ่งได้สำเร็จ จำเป็นต้องรวบรวมตัวอย่างของวัตถุนี้หลายพันตัวอย่างซึ่งจะดำเนินการฝึกอบรม บ่อยครั้งจำนวนสิ่งของมีเป็นร้อย ฐานข้อมูลการฝึกอบรมขั้นสุดท้ายสามารถนับจำนวนวัตถุนับแสนหรือล้านรายการได้

ดังนั้นการเตรียมฐานจึงเป็นกระบวนการที่ต้องใช้แรงงานมาก บางครั้งสตาร์ทอัพเข้ามาหาเราแล้วบอกว่า เราต้องการทำให้เป็นที่รู้จักเช่น Pinterest โดยมีลิงก์ไปยังผลิตภัณฑ์จาก Amazon “เจ๋ง” เราพูด “เราจัดให้ได้” แต่คุณต้องมีรูปภาพจำนวนมากสำหรับแต่ละผลิตภัณฑ์เพื่อให้เครือข่ายทำงานได้ เราสามารถรวบรวมมันได้หรือไม่? หลังจากนี้ ด้วยเหตุผลบางประการ ลูกค้าจึงหายตัวไปในอวกาศ

แม้ว่าจะต้องสังเกตว่าเทคโนโลยีต่าง ๆ สำหรับการเรียนรู้แบบเร่งรัดกำลังปรากฏขึ้นแล้ว ตัวอย่างเช่น อาร์เรย์รูปภาพที่ผ่านการฝึกอบรมแล้วที่เปิดเผยต่อสาธารณะ อิมเมจเน็ต- โครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมล่วงหน้าซึ่งสามารถจดจำภาพและไม่จำเป็นต้องเตรียมเครือข่ายเพื่อดำเนินการเป็นเวลานาน

ความคืบหน้ายังมองเห็นได้จากด้านฮาร์ดแวร์ - มีการ์ดแสดงผลประสิทธิภาพสูงที่ช่วยให้คุณฝึกอบรมและใช้เครือข่ายได้เร็วขึ้นหลายร้อยเท่า

และประการที่สอง การจัดเก็บและประมวลผลข้อมูลจำนวนมากต้องใช้พลังการประมวลผลและเงินทุนโครงสร้างพื้นฐานจำนวนมาก สำหรับการฝึกอบรมและการใช้งานเครือข่าย จำเป็นต้องมีการ์ดที่มีหน่วยความจำอย่างน้อย 3-4 GB และสำหรับสถาปัตยกรรมบางรุ่นต้องใช้ทั้งหมด 11 กิ๊ก การ์ดไม่ถูก: โครงการเล็ก ๆ หนึ่งโครงการต้องใช้การ์ดราคาประมาณ 100,000 รูเบิล แถมยังต้องใช้เวลามากอีกด้วย พื้นที่ดิสก์ภายใต้ข้อมูลนั้นเอง

ดังนั้นเทคโนโลยีโครงข่ายประสาทเทียมจึงมีการพัฒนาอย่างกว้างขวางและเป็นที่ต้องการอย่างมาก บนอินเทอร์เน็ตคุณจะพบกับวรรณกรรมและการวิจัยมากมายในหัวข้อนี้ แม้แต่รหัสโปรแกรมสำหรับเครือข่ายก็ยังมีให้อีกด้วย นั่นคือในอีกด้านหนึ่งเทคโนโลยีดูเหมือนว่าจะมีอยู่ทั่วไป แต่ในทางกลับกัน ในขณะนี้ ยังคงซับซ้อนและเข้าใจได้ไม่ดี บริษัทขนาดใหญ่มักจัดการแข่งขันทุกประเภทเพื่อหาอัลกอริธึมที่ดีที่สุด และบ่อยครั้งการต่อสู้เพื่อความแม่นยำเพียงหนึ่งในสิบและร้อยของอัลกอริธึมเท่านั้น

ดังนั้น ด้วยรายงานของเราเกี่ยวกับการจดจำอุปกรณ์เคลื่อนที่ในสาขาแฟชั่น เราจึงผ่านเข้ารอบชิงชนะเลิศได้ เคดีดีซึ่งเป็นการประชุมที่ใหญ่ที่สุดในโลกในสาขา Knowledge Discovery และ Data Mining ข้อความของรายงานมีอยู่ที่ลิงค์

เรายังคงทำงานเพื่อพัฒนาเทคโนโลยีต่อไป

การจดจำใบหน้า เป็นปัญหาพื้นฐานในด้านการมองเห็นคอมพิวเตอร์และเป็นก้าวสำคัญในการสร้างแอปพลิเคชันที่สามารถจดจำและแยกแยะผู้คนจากใบหน้าได้ วิธีการจดจำใบหน้าได้รับการศึกษาอย่างแข็งขันในช่วง 20 ปีที่ผ่านมา ซึ่งในช่วงเวลาดังกล่าวมีความแม่นยำและ วิธีการที่มีประสิทธิภาพทำงานภายใต้เงื่อนไขบางประการ

เทคนิคการจดจำใบหน้าสมัยใหม่ได้รับผลลัพธ์ที่น่าประทับใจเมื่อทำงานกับรูปภาพใบหน้าขนาดกลางและขนาดใหญ่ ประสิทธิภาพในการทำงานกับภาพขนาดเล็กไม่เป็นที่น่าพอใจ- ปัญหาหลักในการจดจำใบหน้าเล็ก (เช่น ขนาด 10x10 พิกเซล) คือการไม่มีรายละเอียดใบหน้าเพื่อแยกความแตกต่างจากพื้นหลัง ปัญหาอีกประการหนึ่งก็คือ วิธีการที่ทันสมัยการจดจำใบหน้าสร้างขึ้นบนพื้นฐานของโครงข่ายประสาทเทียมแบบหมุนวน และใช้แผนผังฟีเจอร์แบบหมุนด้วยอัตราการสุ่มตัวอย่างต่ำและเป็นขั้นตอนใหญ่ในการแสดงใบหน้า (8, 16, 32) ซึ่งสูญเสียข้อมูลและไม่ถูกต้องเกินกว่าจะอธิบายภาพขนาดเล็กได้ .

เพื่อเอาชนะความยากลำบากเหล่านี้ในวิธีการจดจำใบหน้าได้ดีขึ้น จึงได้เสนอโครงข่ายประสาทเทียมแบบสากลที่ใช้โครงข่ายประสาทเทียมแบบคลาสสิกกำเนิดใหม่ ประกอบด้วยสองซับเน็ต: เครื่องกำเนิดไฟฟ้าและ ผู้เลือกปฏิบัติ.

เครื่องกำเนิดใช้โครงข่ายประสาทเทียม SRN (เครือข่ายความละเอียดสูง)เพื่อเพิ่มความละเอียด ต่างจากการลดขนาดความละเอียดแบบไบลิเนียร์ SRN ไม่ได้เพิ่มส่วนต่างๆ เข้าไป ภาพที่สร้างขึ้นและปรับปรุงคุณภาพเนื่องจากปัจจัยการขยายขนาดใหญ่ อย่างไรก็ตาม เมื่อใช้ SRN และโครงข่ายประสาทเทียมขั้นสูงอื่นๆ นักวิจัยก็ได้รับผลอย่างมาก ภาพเบลอไม่มีชิ้นส่วนเล็กๆ นี่เป็นผลมาจากความละเอียดที่ต่ำมากของภาพที่ป้อนเข้า

โครงข่ายประสาทเทียม "ที่ได้รับการปรับปรุง" ถูกนำมาใช้เพื่อเรียกคืนรายละเอียดที่ขาดหายไปในภาพผลลัพธ์ และสร้างภาพที่มีความละเอียดสูงที่แม่นยำสำหรับงานจำแนกประเภท RN (เครือข่ายการปรับแต่ง)- ภาพสุดท้ายและภาพจริงจะถูกส่งผ่านเครื่องแยกแยะซึ่งจะตัดสินว่าภาพทั้งสองภาพนั้นเป็นภาพจริงหรือสร้างขึ้น และภาพเหล่านั้นแสดงใบหน้าหรือไม่ ข้อเสนอแนะทำให้เครื่องสร้างภาพมีลักษณะใบหน้าที่แม่นยำยิ่งขึ้น

สถาปัตยกรรมโครงข่ายประสาทเทียม

ขั้นแรกเรามาดูโครงสร้างของเครื่องกำเนิดไฟฟ้ากันก่อน ประกอบด้วยสองส่วน — โครงข่ายประสาทเทียม SRN และโครงข่ายประสาทเทียมสำหรับการปรับปรุง โครงข่ายประสาทเทียมแรกจะเพิ่มความละเอียดของภาพอินพุต เนื่องจากรูปภาพใบหน้าเล็กขาดรายละเอียดและยังเนื่องมาจากอิทธิพลของการสูญเสียกำลังสองเฉลี่ยของรูทด้วย รูปภาพที่สร้างโดยโครงข่ายประสาทเทียมแรกมักจะไม่ชัดเจน- ดังนั้นจึงมีการใช้โครงข่ายประสาทเทียมที่สองเพื่อปรับปรุงภาพเหล่านี้ ส่งผลให้ สาขาการจำแนกประเภทสำหรับการจดจำใบหน้าจะถูกเพิ่มเข้าไปในตัวแยกแยะซึ่งช่วยให้ผู้เลือกปฏิบัติสามารถจำแนกใบหน้าและวัตถุอื่นๆ ได้ ตลอดจนแยกแยะระหว่างภาพที่สร้างขึ้นและภาพจริง

สถาปัตยกรรมเครื่องกำเนิดและการแบ่งแยก

เครื่องกำเนิดไฟฟ้า

การปรับปรุงโครงข่ายประสาทเทียมของเครื่องกำเนิดไฟฟ้ามีสถาปัตยกรรมโครงข่ายประสาทเทียมแบบหมุนวน หลังจากแต่ละเลเยอร์การบิดงอ ยกเว้นชั้นสุดท้าย การทำให้เป็นมาตรฐาน (การทำให้เป็นมาตรฐานแบบแบตช์) และการเปิดใช้งาน ReLU ได้ถูกดำเนินการ

โครงข่ายประสาทเทียม SRN ในเครื่องกำเนิดจะเพิ่มความละเอียดของส่วนของภาพที่เลือกไว้ 4 เท่า- ชิ้นส่วนที่ได้จะเบลอหากใบหน้าอยู่ไกลจากกล้องหรือเคลื่อนไหว การปรับปรุงโครงข่ายประสาทเทียมประมวลผลชิ้นส่วนเหล่านี้และ ให้ภาพที่มีรายละเอียดมากขึ้นซึ่งผู้เลือกปฏิบัติสามารถจดจำใบหน้าได้ง่าย

ผู้เลือกปฏิบัติ

ผู้แยกแยะใช้โครงข่ายประสาทเทียมเป็นโครงข่ายประสาทหลัก วีจีจี19ซึ่งชั้นการสุ่มตัวอย่างย่อยได้ถูกลบออกเพื่อกำจัดการดำเนินการลดความละเอียดต่างๆ ยิ่งไปกว่านั้น เลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์ทั้งหมด (เช่น f c6, f c7, f c8) จะถูกแทนที่ด้วยเลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์แบบขนานสองชั้น fcGAN และ fcclc- อินพุตจะมีรูปภาพที่มีความละเอียดเพิ่มขึ้น สาขา fcGAN ให้ความน่าจะเป็นที่รูปภาพอินพุตเป็นของจริง และสาขา fcclc ให้ความน่าจะเป็นที่รูปภาพอินพุตมีใบหน้า

ฟังก์ชั่นการสูญเสีย

การสูญเสียต่อพิกเซล:อินพุตของเครื่องกำเนิดไฟฟ้าเป็นภาพเบลอเล็กๆ ไม่ใช่สัญญาณรบกวนแบบสุ่ม วิธีธรรมชาติในการทำให้อิมเมจเอาท์พุตของเครื่องกำเนิดไฟฟ้าใกล้เคียงกับของจริงคือการใช้ค่าคลาดเคลื่อนกำลังสองเฉลี่ยรากต่อพิกเซล ซึ่งคำนวณได้ดังนี้:

โดยที่ ILR และ IHR แสดงถึงชิ้นส่วนที่พร่ามัวขนาดเล็ก (ความละเอียดต่ำ) และภาพความละเอียดสูง (ความละเอียดสูง) ตามลำดับ G1 — SNR โครงข่ายประสาทเทียม G2 — ปรับปรุงโครงข่ายประสาทเทียม   - พารามิเตอร์เครื่องกำเนิด

การสูญเสียจากการแข่งขัน:เพื่อให้บรรลุผลที่สมจริงมากขึ้น จึงได้มีการนำความสูญเสียของฝ่ายตรงข้ามมาใช้ โดยนิยามไว้ดังนี้:

การสูญเสียฝ่ายตรงข้ามบังคับให้โครงข่ายประสาทเทียมสร้างรายละเอียดความถี่สูงที่คมชัดยิ่งขึ้นเพื่อ "หลอก" ผู้เลือกปฏิบัติ

การสูญเสียการจำแนกประเภท:เพื่อให้อิมเมจที่กู้คืนโดยตัวสร้างจดจำได้ง่ายขึ้น จึงมีการสูญเสียการจำแนกประเภท สูตรการคำนวณการสูญเสียการจัดประเภทมีดังนี้

การสูญเสียการจำแนกประเภทใช้ด้วยเหตุผลสองประการ ขั้นแรก อนุญาตให้ผู้เลือกปฏิบัติพิจารณาว่าภาพจริงและภาพที่สร้างขึ้นมีใบหน้าหรือไม่ และประการที่สอง พวกมันกระตุ้น Generator เพื่อสร้างภาพที่ละเอียดมากขึ้น

ฟังก์ชั่นวัตถุประสงค์:การสูญเสียฝ่ายตรงข้ามและการจำแนกประเภทจะรวมอยู่ในการสูญเสีย rms ต่อพิกเซล โครงข่ายประสาทเทียมปฏิปักษ์แบบกำเนิดสามารถฝึกได้โดยใช้ฟังก์ชันวัตถุประสงค์ เพื่อพฤติกรรมการไล่ระดับสีที่ดีขึ้น ฟังก์ชันการสูญเสียของ Generator G และ Discriminator D ได้รับการแก้ไขดังนี้:


สมการแรกประกอบด้วยความขัดแย้ง ค่าเฉลี่ยรากกำลังสอง และการสูญเสียการจำแนกประเภท ซึ่งทำให้ภาพที่ถูกสร้างขึ้นใหม่คล้ายกับภาพความละเอียดสูงจริงที่รายละเอียดความถี่สูง พิกเซล และระดับความหมาย ตามลำดับ ฟังก์ชันการสูญเสียตัวแยกแยะ D ในสมการที่สองจะเพิ่มการสูญเสียการจำแนกประเภทเพื่อพิจารณาว่าใบหน้าปรากฏอยู่ในภาพที่มีความละเอียดสูงหรือไม่ ด้วยการเพิ่มการสูญเสียการจำแนกประเภท รูปภาพที่สร้างขึ้นใหม่ของ Generator จะมีความสมจริงมากกว่าผลลัพธ์ที่ปรับให้เหมาะสมโดยใช้การสูญเสียกำลังสองของฝ่ายตรงข้ามและค่าเฉลี่ยราก