น้ำ (Water)

ผลตอบแทนที่ลดลงของการเรียนรู้เชิงลึก

บทความนี้เป็นส่วนหนึ่งของรายงานพิเศษของเราเกี่ยวกับ AI “The Great AI Reckoning” ขณะนี้มีการใช้ Deep Learning เพื่อแปลระหว่างภาษาต่างๆ ทำนายว่าโปรตีนพับอย่างไร วิเคราะห์การสแกนทางการแพทย์ และเล่นเกมที่ซับซ้อนเท่ากับ Go เพื่อบอกชื่อการประยุกต์ใช้เทคนิคเพียงไม่กี่อย่างที่กำลังแพร่หลาย ความสำเร็จในสิ่งเหล่านั้นและอาณาจักรอื่นๆ ได้นำเทคนิคการเรียนรู้ด้วยเครื่องนี้จากความสับสนในช่วงต้นทศวรรษ 2000 มาสู่การครอบงำในปัจจุบัน แม้ว่าการขึ้นสู่ชื่อเสียงของการเรียนรู้เชิงลึกนั้นค่อนข้างเร็ว แต่ต้นกำเนิดของมันกลับไม่ใช่ ในปี 1958 เมื่อคอมพิวเตอร์เมนเฟรมเต็มห้องและวิ่งบนหลอดสุญญากาศ ความรู้เกี่ยวกับการเชื่อมต่อระหว่างเซลล์ประสาทในสมองเป็นแรงบันดาลใจให้ Frank Rosenblatt ที่ Cornell ออกแบบโครงข่ายประสาทเทียมระบบแรก ซึ่งเขาอธิบายไว้ล่วงหน้าว่าเป็น แต่ความทะเยอทะยานของ Rosenblatt เหนือกว่าความสามารถในยุคของเขา และเขาก็รู้ดี แม้แต่บทความแรกของเขาก็ยังถูกบังคับให้ต้องยอมรับความกระหายของโครงข่ายประสาทเทียมสำหรับพลังในการคำนวณ และคร่ำครวญว่า “เมื่อจำนวนการเชื่อมต่อในเครือข่ายเพิ่มขึ้น…ภาระบนคอมพิวเตอร์ดิจิทัลทั่วไปในเร็ววันจะกลายเป็นมากเกินไป” โชคดีสำหรับโครงข่ายประสาทเทียมดังกล่าว ซึ่งต่อมาได้เรียกว่า “การเรียนรู้เชิงลึก” เมื่อมีการรวมเซลล์ประสาทชั้นพิเศษ ทศวรรษของกฎของมัวร์และการปรับปรุงอื่นๆ ในฮาร์ดแวร์คอมพิวเตอร์ทำให้จำนวนการคำนวณที่คอมพิวเตอร์สามารถทำได้เพิ่มขึ้นประมาณ 10 ล้านเท่า ในวินาที ดังนั้นเมื่อนักวิจัยกลับไปสู่การเรียนรู้เชิงลึกในช่วงปลายทศวรรษ 2000 พวกเขาใช้เครื่องมือที่เท่าเทียมกับความท้าทาย คอมพิวเตอร์ที่มีพลังมากขึ้นเหล่านี้ทำให้สามารถสร้างเครือข่ายที่มีการเชื่อมต่อและเซลล์ประสาทจำนวนมากขึ้นได้ และด้วยเหตุนี้จึงมีความสามารถมากขึ้นในการสร้างแบบจำลองปรากฏการณ์ที่ซับซ้อน นักวิจัยใช้ความสามารถนั้นในการทำลายสถิติหลังจากบันทึกในขณะที่พวกเขาใช้การเรียนรู้เชิงลึกกับงานใหม่ แม้ว่าการเรียนรู้เชิงลึกที่เพิ่มขึ้นอาจเป็นเรื่องอุตุนิยมวิทยา แต่อนาคตของการเรียนรู้อย่างลึกซึ้งนั้นอาจเป็นหลุมเป็นบ่อ เช่นเดียวกับ Rosenblatt ก่อนหน้าพวกเขา นักวิจัยที่เรียนรู้เชิงลึกในปัจจุบันกำลังเข้าใกล้ขอบเขตของสิ่งที่เครื่องมือของพวกเขาสามารถทำได้ เพื่อให้เข้าใจว่าทำไมสิ่งนี้ถึงเปลี่ยนรูปร่างของแมชชีนเลิร์นนิง คุณต้องเข้าใจก่อนว่าทำไมการเรียนรู้เชิงลึกจึงประสบความสำเร็จอย่างมาก และมีค่าใช้จ่ายเท่าไรในการรักษาให้เป็นอย่างนั้น การเรียนรู้เชิงลึกคือรูปแบบใหม่ที่ทันสมัยของเทรนด์ปัญญาประดิษฐ์ที่มีมาอย่างยาวนานซึ่งได้เปลี่ยนจากระบบที่มีความคล่องตัวโดยอาศัยความรู้ของผู้เชี่ยวชาญไปสู่แบบจำลองทางสถิติที่ยืดหยุ่น ระบบ AI ในยุคแรกๆ นั้นอิงตามกฎ โดยใช้ตรรกะและความรู้จากผู้เชี่ยวชาญเพื่อให้ได้ผลลัพธ์ ระบบในภายหลังได้รวมการเรียนรู้เพื่อตั้งค่าพารามิเตอร์ที่ปรับได้ แต่โดยปกติแล้วจะมีจำนวนไม่มากนัก โครงข่ายประสาทเทียมในปัจจุบันยังเรียนรู้ค่าพารามิเตอร์ด้วย แต่พารามิเตอร์เหล่านั้นเป็นส่วนหนึ่งของโมเดลคอมพิวเตอร์ที่ยืดหยุ่นได้ ซึ่งถ้ามีขนาดใหญ่พอ จะกลายเป็นตัวประมาณฟังก์ชันสากล ซึ่งหมายความว่าสามารถใส่ข้อมูลประเภทใดก็ได้ ความยืดหยุ่นที่ไม่จำกัดนี้เป็นสาเหตุที่ทำให้การเรียนรู้เชิงลึกสามารถนำไปใช้กับโดเมนต่างๆ ได้มากมาย ความยืดหยุ่นของโครงข่ายประสาทเทียมมาจากการนำอินพุตจำนวนมากไปยังโมเดลและให้เครือข่ายรวมเข้าด้วยกันด้วยวิธีต่างๆ มากมาย ซึ่งหมายความว่าผลลัพธ์จะไม่เป็นผลมาจากการใช้สูตรง่ายๆ แต่แทนที่จะเป็นสูตรที่ซับซ้อนมาก ตัวอย่างเช่น เมื่อระบบจดจำภาพที่ทันสมัย ​​Noisy Student แปลงค่าพิกเซลของภาพเป็นความน่าจะเป็นของวัตถุในภาพนั้น ระบบจะทำโดยใช้เครือข่ายที่มีพารามิเตอร์ 480 ล้านตัว การฝึกอบรมเพื่อตรวจสอบค่าของพารามิเตอร์จำนวนมากนั้นน่าทึ่งยิ่งกว่าเพราะใช้รูปภาพที่มีป้ายกำกับเพียง 1.2 ล้านภาพ ซึ่งอาจสร้างความสับสนให้กับพวกเราที่จำพีชคณิตระดับมัธยมศึกษาตอนปลายว่าเราน่าจะมีสมการมากกว่า ไม่รู้จัก การทำลายกฎนั้นกลายเป็นกุญแจสำคัญ โมเดลการเรียนรู้เชิงลึกมีการกำหนดพารามิเตอร์เกิน ซึ่งหมายความว่ามีพารามิเตอร์มากกว่าที่มีจุดข้อมูลสำหรับการฝึกอบรม ตามหลักแล้ว สิ่งนี้จะนำไปสู่การใส่มากเกินไป ซึ่งโมเดลไม่เพียงเรียนรู้แนวโน้มทั่วไป แต่ยังรวมถึงความแปรปรวนแบบสุ่มของข้อมูลที่ได้รับการฝึกด้วย การเรียนรู้เชิงลึกช่วยหลีกเลี่ยงกับดักนี้ด้วยการเริ่มต้นพารามิเตอร์แบบสุ่ม จากนั้นจึงปรับชุดของพารามิเตอร์เหล่านี้ซ้ำๆ เพื่อให้เหมาะสมกับข้อมูลมากขึ้นโดยใช้วิธีการที่เรียกว่าการไล่ระดับสีแบบสุ่ม น่าแปลกที่ขั้นตอนนี้ได้รับการพิสูจน์เพื่อให้แน่ใจว่าแบบจำลองที่เรียนรู้นั้นมีลักษณะทั่วไปเป็นอย่างดี ความสำเร็จของโมเดลการเรียนรู้เชิงลึกที่ยืดหยุ่นสามารถเห็นได้ในการแปลด้วยเครื่อง เป็นเวลาหลายทศวรรษที่ซอฟต์แวร์ถูกใช้เพื่อแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง แนวทางเริ่มต้นของปัญหานี้ใช้กฎที่ออกแบบโดยผู้เชี่ยวชาญด้านไวยากรณ์ แต่เมื่อมีข้อมูลที่เป็นข้อความมากขึ้นในภาษาเฉพาะ แนวทางทางสถิติที่ใช้ชื่อลึกลับ เช่น เอนโทรปีสูงสุด แบบจำลองมาร์กอฟที่ซ่อนอยู่ และฟิลด์สุ่มแบบมีเงื่อนไขก็สามารถนำมาใช้ได้ ในขั้นต้น วิธีการที่ใช้ได้ผลดีที่สุดสำหรับแต่ละภาษาจะแตกต่างกันไปตามความพร้อมใช้งานของข้อมูลและคุณสมบัติทางไวยากรณ์ ตัวอย่างเช่น วิธีการที่อิงตามกฎในการแปลภาษาต่างๆ เช่น ภาษาอูรดู อาหรับ และมาเลย์ มีประสิทธิภาพเหนือกว่าภาษาทางสถิติ—ในตอนแรก ทุกวันนี้ วิธีการทั้งหมดเหล่านี้แซงหน้าด้วยการเรียนรู้เชิงลึก ซึ่งได้พิสูจน์ตัวเองว่าเหนือกว่าเกือบทุกที่ที่ใช้ ข่าวดีก็คือการเรียนรู้เชิงลึกนั้นให้ความยืดหยุ่นอย่างมาก ข่าวร้ายก็คือความยืดหยุ่นนี้มีค่าใช้จ่ายในการคำนวณมหาศาล ความจริงที่โชคร้ายนี้มีสองส่วน การคาดการณ์ผลที่เพิ่มขึ้นในช่วงไม่กี่ปีที่ผ่านมาอาจชี้ให้เห็นว่าภายในปี 2568 ระดับข้อผิดพลาดในระบบการเรียนรู้เชิงลึกที่ดีที่สุดที่ออกแบบมาเพื่อการจำแนกวัตถุในชุดข้อมูล ImageNet ควรลดลงเหลือเพียง 5 เปอร์เซ็นต์ . แต่ทรัพยากรการคำนวณและพลังงานที่จำเป็นในการฝึกอบรมระบบในอนาคตดังกล่าวจะมีจำนวนมหาศาล ซึ่งนำไปสู่การปล่อยก๊าซคาร์บอนไดออกไซด์ให้มากที่สุดเท่าที่นครนิวยอร์กจะสร้างขึ้นในหนึ่งเดือน [bottom] แหล่งที่มา: NC THOMPSON, K. GREENEWALD, K. LEE, GF MANSO ส่วนแรกเป็นจริงสำหรับแบบจำลองทางสถิติทั้งหมด: ในการปรับปรุงประสิทธิภาพด้วยปัจจัย k ต้องใช้จุดข้อมูลอย่างน้อย k2 จุดในการฝึกโมเดล ส่วนที่สองของต้นทุนในการคำนวณมาจากการกำหนดพารามิเตอร์เกิน เมื่อพิจารณาแล้ว จะทำให้ต้นทุนการคำนวณทั้งหมดสำหรับการปรับปรุงอย่างน้อย k4 4 ตัวเล็กในเลขชี้กำลังนั้นมีราคาแพงมาก ตัวอย่างเช่น การปรับปรุง 10 เท่า จะต้องมีการคำนวณเพิ่มขึ้นอย่างน้อย 10,000 เท่า เพื่อให้ความยืดหยุ่นในการแลกเปลี่ยนการคำนวณมีความชัดเจนมากขึ้น ให้พิจารณาสถานการณ์ที่คุณพยายามคาดการณ์ว่าเอ็กซ์เรย์ของผู้ป่วยเปิดเผยมะเร็งหรือไม่ สมมติเพิ่มเติมว่าสามารถหาคำตอบที่แท้จริงได้หากคุณวัดรายละเอียด 100 รายการในเอ็กซ์เรย์ (มักเรียกว่าตัวแปรหรือคุณลักษณะ) ความท้าทายคือเราไม่รู้ล่วงหน้าว่าตัวแปรใดมีความสำคัญ และอาจมีกลุ่มตัวแปรตัวเลือกจำนวนมากที่ต้องพิจารณา แนวทางของระบบผู้เชี่ยวชาญในการแก้ไขปัญหานี้คือให้ผู้ที่มีความรู้ด้านรังสีวิทยาและเนื้องอกวิทยาระบุตัวแปรที่พวกเขาคิดว่ามีความสำคัญ ซึ่งช่วยให้ระบบตรวจสอบได้เฉพาะตัวแปรเหล่านั้น แนวทางระบบที่ยืดหยุ่นคือการทดสอบตัวแปรให้ได้มากที่สุดเท่าที่จะเป็นไปได้ และปล่อยให้ระบบทราบด้วยตัวเองว่าอะไรสำคัญ ซึ่งต้องใช้ข้อมูลมากขึ้นและทำให้เกิดต้นทุนในการประมวลผลที่สูงขึ้นมากในกระบวนการ แบบจำลองที่ผู้เชี่ยวชาญกำหนดตัวแปรที่เกี่ยวข้องสามารถเรียนรู้ได้อย่างรวดเร็วว่าค่าใดใช้ได้ผลดีที่สุดสำหรับตัวแปรเหล่านั้น โดยใช้การคำนวณในจำนวนที่จำกัด ซึ่งเป็นสาเหตุที่ทำให้ค่าเหล่านี้ได้รับความนิยมตั้งแต่ช่วงแรกๆ แต่ความสามารถของพวกเขาในการเรียนรู้หยุดชะงักหากผู้เชี่ยวชาญไม่ได้ระบุตัวแปรทั้งหมดที่ควรรวมไว้ในแบบจำลองอย่างถูกต้อง ในทางตรงกันข้าม โมเดลที่ยืดหยุ่น เช่น การเรียนรู้เชิงลึกนั้นมีประสิทธิภาพน้อยกว่า โดยใช้การคำนวณมากกว่าอย่างมากเพื่อให้เข้ากับประสิทธิภาพของโมเดลผู้เชี่ยวชาญ แต่ด้วยการคำนวณ (และข้อมูล) ที่เพียงพอ โมเดลที่ยืดหยุ่นสามารถทำงานได้ดีกว่าโมเดลที่ผู้เชี่ยวชาญพยายามระบุตัวแปรที่เกี่ยวข้อง เห็นได้ชัดว่า คุณจะได้รับประสิทธิภาพที่ดีขึ้นจากการเรียนรู้เชิงลึก หากคุณใช้พลังประมวลผลมากขึ้นเพื่อสร้างโมเดลที่ใหญ่ขึ้นและฝึกฝนโมเดลเหล่านี้ด้วยข้อมูลที่มากขึ้น แต่ภาระการคำนวณนี้จะแพงแค่ไหน? ค่าใช้จ่ายจะสูงพอที่จะขัดขวางความก้าวหน้าหรือไม่? เพื่อตอบคำถามเหล่านี้อย่างเป็นรูปธรรม เมื่อเร็วๆ นี้เราได้รวบรวมข้อมูลจากงานวิจัยมากกว่า 1,000 เรื่องเกี่ยวกับการเรียนรู้เชิงลึก ซึ่งครอบคลุมพื้นที่ของการจัดประเภทรูปภาพ การตรวจจับวัตถุ การตอบคำถาม การรู้จำชื่อเอนทิตี และการแปลด้วยเครื่อง ในที่นี้ เราจะพูดถึงรายละเอียดเกี่ยวกับการจัดประเภทรูปภาพเท่านั้น แต่บทเรียนจะนำไปใช้ในวงกว้าง หลายปีที่ผ่านมา การลดข้อผิดพลาดในการจำแนกรูปภาพได้มาพร้อมกับภาระการคำนวณที่เพิ่มขึ้นอย่างมาก ตัวอย่างเช่น ในปี 2012 AlexNet โมเดลที่แสดงพลังของการฝึกระบบการเรียนรู้เชิงลึกในหน่วยประมวลผลกราฟิก (GPU) เป็นครั้งแรก ได้รับการฝึกอบรมเป็นเวลาห้าถึงหกวันโดยใช้ GPU สองตัว ภายในปี 2018 NASNet-A อีกรุ่นหนึ่งได้ลดอัตราความผิดพลาดของ AlexNet ลงครึ่งหนึ่ง แต่ใช้การคำนวณมากกว่า 1,000 เท่าเพื่อให้บรรลุเป้าหมายนี้ การวิเคราะห์ปรากฏการณ์นี้ทำให้เราเปรียบเทียบสิ่งที่เกิดขึ้นจริงกับความคาดหวังทางทฤษฎีได้ ทฤษฎีบอกเราว่าการคำนวณจำเป็นต้องปรับขนาดด้วยพลังที่สี่ของการปรับปรุงประสิทธิภาพเป็นอย่างน้อย ในทางปฏิบัติ ความต้องการที่แท้จริงได้ปรับขนาดด้วยกำลังที่เก้าเป็นอย่างน้อย ยกกำลังที่ 9 นี้หมายความว่าเพื่อลดอัตราความผิดพลาดลงครึ่งหนึ่ง คุณอาจต้องใช้ทรัพยากรการคำนวณมากกว่า 500 เท่า นั่นเป็นราคาที่สูงทำลายล้าง อย่างไรก็ตามอาจมีซับในสีเงินที่นี่ ช่องว่างระหว่างสิ่งที่เกิดขึ้นในทางปฏิบัติและสิ่งที่ทฤษฎีคาดการณ์อาจหมายความว่ายังมีการปรับปรุงอัลกอริทึมที่ยังไม่ถูกค้นพบซึ่งสามารถปรับปรุงประสิทธิภาพของการเรียนรู้เชิงลึกได้อย่างมาก เพื่อลดอัตราข้อผิดพลาดลงครึ่งหนึ่ง คุณอาจต้องใช้ทรัพยากรการคำนวณมากกว่า 500 เท่า ดังที่เราได้กล่าวไว้ กฎของมัวร์และความก้าวหน้าด้านฮาร์ดแวร์อื่นๆ ได้ให้ประสิทธิภาพชิปเพิ่มขึ้นอย่างมาก นี่หมายความว่าการเพิ่มความต้องการในการคำนวณไม่สำคัญใช่หรือไม่ น่าเสียดายที่ไม่มี จากความแตกต่าง 1,000 เท่าในการคำนวณที่ AlexNet และ NASNet-A ใช้ มีเพียงการปรับปรุงหกเท่าเท่านั้นที่มาจากฮาร์ดแวร์ที่ดีกว่า ส่วนที่เหลือมาจากการใช้โปรเซสเซอร์มากขึ้นหรือใช้งานนานขึ้น ทำให้มีค่าใช้จ่ายสูงขึ้น เมื่อประเมินเส้นกราฟประสิทธิภาพต้นทุนและการคำนวณสำหรับการรู้จำภาพแล้ว เราสามารถใช้เส้นนี้เพื่อประเมินว่าต้องใช้การคำนวณมากเพียงใดเพื่อให้ได้มาตรฐานประสิทธิภาพที่น่าประทับใจยิ่งขึ้นอีกในอนาคต ตัวอย่างเช่น การบรรลุอัตราความผิดพลาดร้อยละ 5 จะต้องมีการดำเนินการจุดลอยตัว 1019 พันล้านครั้ง งานสำคัญของนักวิชาการจากมหาวิทยาลัยแมสซาชูเซตส์แอมเฮิร์สต์ช่วยให้เราเข้าใจต้นทุนทางเศรษฐกิจและการปล่อยก๊าซคาร์บอนโดยนัยจากภาระการคำนวณนี้ คำตอบนั้นช่างยากเย็น: การฝึกอบรมแบบจำลองดังกล่าวจะมีค่าใช้จ่าย 100 พันล้านดอลลาร์สหรัฐ และจะปล่อยก๊าซคาร์บอนได้มากเท่ากับที่นครนิวยอร์กทำในหนึ่งเดือน และถ้าเราประเมินภาระการคำนวณของอัตราความผิดพลาด 1 เปอร์เซ็นต์ ผลลัพธ์จะยิ่งแย่ลงมาก การคาดการณ์ลำดับความสำคัญจำนวนมากเป็นสิ่งที่สมเหตุสมผลหรือไม่? ใช่และไม่. แน่นอน สิ่งสำคัญคือต้องเข้าใจว่าการคาดคะเนนั้นไม่แม่นยำ แม้ว่าจะได้ผลที่น่าดึงดูดใจ แต่ก็ไม่จำเป็นต้องถ่ายทอดข้อความโดยรวมของความไม่ยั่งยืน การคาดการณ์ด้วยวิธีนี้จะไม่สมเหตุสมผลหากเราคิดว่านักวิจัยจะปฏิบัติตามวิถีนี้ไปจนถึงผลลัพธ์ที่รุนแรง เราไม่ เมื่อต้องเผชิญกับค่าใช้จ่ายที่พุ่งสูงขึ้น นักวิจัยจะต้องหาวิธีที่มีประสิทธิภาพมากขึ้นในการแก้ปัญหาเหล่านี้ มิฉะนั้นพวกเขาจะละทิ้งการทำงานกับปัญหาเหล่านี้และความคืบหน้าจะอ่อนกำลังลง ในทางกลับกัน การคาดคะเนผลลัพธ์ของเราไม่เพียงแต่มีเหตุผลเท่านั้น แต่ยังมีความสำคัญด้วย เพราะมันบ่งบอกถึงความสำคัญของความท้าทายที่รออยู่ข้างหน้า แนวหน้าของปัญหานี้เป็นที่ประจักษ์อยู่แล้ว เมื่อ DeepMind บริษัท ย่อยของ Google ฝึกฝนระบบให้เล่น Go คาดว่าจะมีราคา 35 ล้านดอลลาร์ เมื่อนักวิจัยของ DeepMind ได้ออกแบบระบบสำหรับเล่นวิดีโอเกม StarCraft II พวกเขาตั้งใจจะไม่พยายามสร้างองค์ประกอบที่สำคัญหลายวิธี เนื่องจากค่าใช้จ่ายในการฝึกอบรมอาจสูงเกินไป ที่ OpenAI ซึ่งเป็นคลังความคิดสำหรับแมชชีนเลิร์นนิงที่สำคัญ นักวิจัยได้ออกแบบและฝึกอบรมระบบภาษาการเรียนรู้เชิงลึกที่ได้รับการยกย่องมากซึ่งเรียกว่า GPT-3 ด้วยราคามากกว่า 4 ล้านเหรียญสหรัฐ แม้ว่าพวกเขาจะทำผิดพลาดเมื่อนำระบบไปใช้ แต่พวกเขาไม่ได้แก้ไข โดยอธิบายเพียงในส่วนเพิ่มเติมของการตีพิมพ์เชิงวิชาการว่า “เนื่องจากค่าใช้จ่ายในการฝึกอบรม จึงเป็นไปไม่ได้ที่จะฝึกแบบจำลองใหม่” แม้แต่ธุรกิจนอกอุตสาหกรรมเทคโนโลยีก็เริ่มหลีกเลี่ยงค่าใช้จ่ายในการเรียนรู้เชิงลึก เครือซูเปอร์มาร์เก็ตขนาดใหญ่ในยุโรปเพิ่งละทิ้งระบบการเรียนรู้เชิงลึกซึ่งปรับปรุงความสามารถในการคาดการณ์ว่าจะซื้อผลิตภัณฑ์ใดอย่างเห็นได้ชัด ผู้บริหารของบริษัทละเลยความพยายามนั้นเพราะพวกเขาตัดสินว่าค่าใช้จ่ายในการฝึกอบรมและการใช้ระบบจะสูงเกินไป เผชิญกับภาวะเศรษฐกิจและสิ่งแวดล้อมที่เพิ่มขึ้น ต้นทุนที่ประจบประแจง ชุมชนการเรียนรู้เชิงลึกจะต้องค้นหาวิธีการเพิ่มประสิทธิภาพโดยไม่ทำให้ความต้องการใช้คอมพิวเตอร์ทำงานเกินความจำเป็น หากไม่เป็นเช่นนั้น ความก้าวหน้าก็จะซบเซา แต่อย่าเพิ่งหมดหวัง: มีการดำเนินการมากมายเพื่อจัดการกับความท้าทายนี้ กลยุทธ์หนึ่งคือการใช้โปรเซสเซอร์ที่ออกแบบมาโดยเฉพาะให้มีประสิทธิภาพสำหรับการคำนวณเชิงลึก แนวทางนี้ใช้กันอย่างแพร่หลายในช่วงทศวรรษที่ผ่านมา เนื่องจากซีพียูได้เปิดทางให้กับ GPU และในบางกรณีก็ใช้เกทอาร์เรย์ที่ตั้งโปรแกรมได้ภาคสนามและไอซีเฉพาะแอปพลิเคชัน (รวมถึงหน่วยประมวลผลเทนเซอร์ของ Google) โดยพื้นฐานแล้ว วิธีการทั้งหมดเหล่านี้เสียสละความเป็นทั่วไปของแพลตฟอร์มการคำนวณเพื่อประสิทธิภาพของความเชี่ยวชาญที่เพิ่มขึ้น แต่ความเชี่ยวชาญพิเศษดังกล่าวกลับได้รับผลตอบแทนที่ลดลง ดังนั้นการได้กำไรในระยะยาวจึงต้องใช้เฟรมเวิร์กฮาร์ดแวร์ที่แตกต่างกันโดยสิ้นเชิง บางทีอาจเป็นฮาร์ดแวร์ที่ใช้ระบบแอนะล็อก นิวโรมอร์ฟิค ออปติคัล หรือควอนตัม อย่างไรก็ตาม จนถึงตอนนี้ เฟรมเวิร์กฮาร์ดแวร์ที่ต่างกันทั้งหมดเหล่านี้ยังไม่ได้รับผลกระทบมากนัก เราต้องปรับวิธีการเรียนรู้อย่างลึกซึ้งหรือเผชิญกับอนาคตที่ก้าวหน้าช้ากว่ามาก อีกวิธีหนึ่งในการลดภาระการคำนวณมุ่งเน้นไปที่การสร้างโครงข่ายประสาทเทียมที่เมื่อนำมาใช้งานจะมีขนาดเล็กกว่า กลยุทธ์นี้ลดต้นทุนทุกครั้งที่ใช้ แต่มักจะเพิ่มค่าใช้จ่ายในการฝึกอบรม (สิ่งที่เราได้อธิบายไปแล้วในบทความนี้) ค่าใช้จ่ายใดที่สำคัญที่สุดขึ้นอยู่กับสถานการณ์ สำหรับรูปแบบที่ใช้กันอย่างแพร่หลาย ค่าใช้จ่ายในการดำเนินการเป็นองค์ประกอบที่ใหญ่ที่สุดของยอดรวมที่ลงทุน สำหรับรุ่นอื่นๆ—เช่น รุ่นที่ต้องฝึกใหม่บ่อยๆ— ค่าใช้จ่ายในการฝึกอบรมอาจครอบงำ ไม่ว่าในกรณีใด ค่าใช้จ่ายทั้งหมดจะต้องมากกว่าการฝึกอบรมเพียงอย่างเดียว ดังนั้นหากค่าใช้จ่ายในการฝึกอบรมสูงเกินไป ดังที่เราได้แสดงไว้ ค่าใช้จ่ายทั้งหมดก็จะสูงเช่นกัน และนั่นคือความท้าทายของกลวิธีต่างๆ ที่ใช้ในการทำให้การใช้งานมีขนาดเล็กลง: สิ่งเหล่านี้ไม่ได้ลดค่าใช้จ่ายในการฝึกอบรมให้เพียงพอ ตัวอย่างเช่น อนุญาตให้ฝึกอบรมเครือข่ายขนาดใหญ่ แต่ลงโทษความซับซ้อนระหว่างการฝึกอบรม อีกประการหนึ่งเกี่ยวข้องกับการฝึกอบรมเครือข่ายขนาดใหญ่แล้ว “ตัด” การเชื่อมต่อที่ไม่สำคัญออกไป อีกคนหนึ่งพบว่าสถาปัตยกรรมมีประสิทธิภาพมากที่สุดเท่าที่จะเป็นไปได้โดยการเพิ่มประสิทธิภาพในหลายรุ่น ซึ่งเรียกว่าการค้นหาสถาปัตยกรรมประสาท แม้ว่าแต่ละเทคนิคเหล่านี้จะมีประโยชน์อย่างมากสำหรับการนำไปใช้ แต่ผลกระทบต่อการฝึกอบรมก็ถูกปิดบัง—แน่นอนว่าไม่เพียงพอที่จะจัดการกับข้อกังวลที่เราเห็นในข้อมูลของเรา และในหลายกรณีพวกเขาทำให้ค่าใช้จ่ายในการฝึกอบรมสูงขึ้น เทคนิคหนึ่งที่กำลังมาแรงซึ่งสามารถลดต้นทุนการฝึกอบรมได้โดยใช้ชื่อ meta-learning แนวคิดก็คือระบบจะเรียนรู้จากข้อมูลที่หลากหลายแล้วนำไปประยุกต์ใช้ในหลาย ๆ ด้าน ตัวอย่างเช่น แทนที่จะสร้างระบบแยกกันเพื่อจดจำสุนัขในภาพ แมวในรูปภาพ และรถยนต์ในรูปภาพ ระบบเดียวสามารถฝึกได้ทั้งหมดและใช้หลายครั้ง น่าเสียดายที่งานล่าสุดของ Andrei Barbu จาก MIT ได้เปิดเผยว่าการเรียนรู้เมตาเป็นเรื่องยากเพียงใด เขาและผู้เขียนร่วมของเขาแสดงให้เห็นว่าแม้ความแตกต่างเพียงเล็กน้อยระหว่างข้อมูลดั้งเดิมกับตำแหน่งที่คุณต้องการใช้ก็สามารถลดประสิทธิภาพลงได้อย่างมาก พวกเขาแสดงให้เห็นว่าระบบการจดจำภาพในปัจจุบันขึ้นอยู่กับสิ่งต่าง ๆ เช่นว่าวัตถุถูกถ่ายภาพในมุมใดมุมหนึ่งหรือในท่าใดโดยเฉพาะ ดังนั้นแม้แต่งานง่าย ๆ ในการจดจำวัตถุเดียวกันในท่าที่ต่างกันก็ทำให้ความแม่นยำของระบบลดลงเกือบครึ่งหนึ่ง Benjamin Recht จาก University of California, Berkeley และคนอื่นๆ ชี้ประเด็นนี้อย่างชัดเจนยิ่งขึ้น โดยแสดงให้เห็นว่าแม้จะมีชุดข้อมูลใหม่ที่สร้างขึ้นโดยจงใจเพื่อเลียนแบบข้อมูลการฝึกอบรมดั้งเดิม แต่ประสิทธิภาพก็ลดลงมากกว่า 10 เปอร์เซ็นต์ หากการเปลี่ยนแปลงเพียงเล็กน้อยในข้อมูลทำให้ประสิทธิภาพลดลงอย่างมาก ข้อมูลที่จำเป็นสำหรับระบบการเรียนรู้เมตาที่ครอบคลุมอาจมีขนาดใหญ่มาก ดังนั้นคำมั่นสัญญาอันยิ่งใหญ่ของการเรียนรู้เมตายังห่างไกลจากการตระหนักรู้ อีกกลยุทธ์หนึ่งที่เป็นไปได้ในการหลีกเลี่ยงข้อจำกัดด้านการคำนวณของการเรียนรู้เชิงลึกคือการย้ายไปยังประเภทอื่น ๆ ที่อาจยังไม่ได้ค้นพบหรืออาจประเมินค่าของแมชชีนเลิร์นนิงน้อยเกินไป ตามที่เราอธิบายไว้ ระบบแมชชีนเลิร์นนิงที่สร้างขึ้นจากข้อมูลเชิงลึกของผู้เชี่ยวชาญนั้นมีประสิทธิภาพในการคำนวณมากกว่ามาก แต่ประสิทธิภาพของระบบจะไม่ถึงระดับสูงสุดเท่ากับระบบการเรียนรู้เชิงลึก หากผู้เชี่ยวชาญเหล่านั้นไม่สามารถแยกแยะปัจจัยที่มีส่วนร่วมทั้งหมดได้ มีการพัฒนาวิธีการแสดงสัญลักษณ์ทางระบบประสาทและเทคนิคอื่นๆ เพื่อรวมพลังของความรู้จากผู้เชี่ยวชาญและการใช้เหตุผลเข้ากับความยืดหยุ่นที่มักพบในโครงข่ายประสาทเทียม เช่นเดียวกับสถานการณ์ที่ Rosenblatt เผชิญในช่วงเริ่มต้นของโครงข่ายประสาทเทียม การเรียนรู้เชิงลึกในปัจจุบันถูกจำกัดด้วยเครื่องมือคำนวณที่มีอยู่ ต้องเผชิญกับการปรับขนาดทางคอมพิวเตอร์ที่จะทำลายเศรษฐกิจและสิ่งแวดล้อม เราต้องปรับวิธีการเรียนรู้อย่างลึกซึ้งหรือเผชิญกับอนาคตที่ช้ากว่ามาก เห็นได้ชัดว่าการปรับตัวดีกว่า ความก้าวหน้าที่ชาญฉลาดอาจพบวิธีที่จะทำให้การเรียนรู้เชิงลึกมีประสิทธิภาพมากขึ้นหรือฮาร์ดแวร์คอมพิวเตอร์มีประสิทธิภาพมากขึ้น ซึ่งจะทำให้เราสามารถใช้แบบจำลองที่ยืดหยุ่นเป็นพิเศษเหล่านี้ต่อไปได้ ถ้าไม่อย่างนั้น ลูกตุ้มก็จะแกว่งกลับไปหาผู้เชี่ยวชาญมากขึ้นเพื่อระบุสิ่งที่ต้องเรียนรู้

Back to top button