ทั่วไป

ระบบ AI สอนวิธีแก้ลูกบาศก์รูบิคด้วยตัวเองในเวลาเพียง 44 ชั่วโมง


ระบบปัญญาประดิษฐ์ (AI) ที่เรียนรู้ด้วยตนเองที่เรียกว่า DeepCube ได้เชี่ยวชาญในการไขปริศนาลูกบาศก์ของรูบิกในเวลาเพียง 44 ชั่วโมงโดยไม่มีการแทรกแซงของมนุษย์ นักประดิษฐ์ของระบบได้ลงรายละเอียดการออกแบบไว้ในกระดาษที่มีชื่อว่า 'การแก้ลูกบาศก์ของรูบิคโดยไม่ต้องใช้ความรู้ของมนุษย์'

“ ตัวแทนที่ชาญฉลาดโดยทั่วไปต้องสามารถสอนตัวเองถึงวิธีแก้ปัญหาในโดเมนที่ซับซ้อนโดยมีมนุษย์ดูแลน้อยที่สุด” เขียนบทความ “ อันที่จริงหากเราจะประสบความสำเร็จทั่วไปที่มีความอัจฉริยะของเครื่องจักรเหมือนมนุษย์เราจะต้องพัฒนาระบบที่สามารถเรียนรู้และนำสิ่งที่เรียนรู้เหล่านั้นไปประยุกต์ใช้ในโลกแห่งความเป็นจริงได้”

ลูกบาศก์ของรูบิคพิสูจน์แล้วว่ามีความท้าทายมากกว่าโกหรือหมากรุก

ในขณะที่ระบบ AI จำนวนมากได้รับการสอนให้เล่นเกมการควบคุมความซับซ้อนของลูกบาศก์ของรูบิคทำให้เกิดความท้าทายที่ไม่เหมือนใคร การสอนเกมเช่น Go และหมากรุกมักจะทำโดยการเรียนรู้กลยุทธ์ที่สั่งการเคลื่อนไหวที่ "ดี" และ "ไม่ดี" และให้รางวัลแก่การตัดสินใจในเชิงบวก

อย่างไรก็ตามการเรียนรู้ประเภทนี้ใช้ไม่ได้กับการแก้ Rubik's Cube เนื่องจากเป็นการยากที่จะตัดสินว่าการเคลื่อนไหวเพียงครั้งเดียวได้เร่งไขปริศนาไปสู่การแก้ปัญหาหรือไม่ หากระบบไม่สามารถให้รางวัลสำหรับขั้นตอนเพิ่มเติมก็จะไม่สามารถเรียนรู้ได้

ลูกบาศก์รูบิค 3X3X3 มี "พื้นที่สถานะ" ทั้งหมด 43,252,003,274,489,856,000 ชุด (นั่นคือ 43 quintillion) ในการไขปริศนาทั้งหกด้านของลูกบาศก์จะต้องมีสีเดียวกัน

เพื่อไปสู่ช่วงเวลาแห่งเวทมนตร์นี้มีอัลกอริทึมหรือกลยุทธ์มากมายสิ่งแรกที่ทำให้Ernő Rubik นักประดิษฐ์ปริศนาใช้เวลาหลายเดือนในการคิดออก การเคลื่อนไหวที่น้อยที่สุดที่เป็นไปได้ในการถอดรหัสเกมที่น่าผิดหวังนั้นถูกกำหนดให้เป็น 26

นับตั้งแต่มีการคิดค้นเกมขึ้นมาเราได้พัฒนาวิธีมากมายในการไขปริศนาและแฟน ๆ ของของเล่นก็กระตือรือร้นที่จะแบ่งปันกับผู้มาใหม่ อย่างไรก็ตามนักวิจัยมุ่งมั่นที่จะหาวิธีสอนระบบเพื่อไขปริศนาโดยไม่ต้องให้ความรู้ก่อนหน้านี้และรายการเคล็ดลับ

พัฒนาเทคนิค AI ใหม่

เพื่อแก้ปัญหาการเรียนรู้ทีมวิจัยจากมหาวิทยาลัยแคลิฟอร์เนียเออร์ไวน์ได้พัฒนาเทคนิค AI ใหม่ที่เรียกว่า Autodidactic Iteration “ ในการแก้ปัญหาลูกบาศก์ของรูบิคโดยใช้การเรียนรู้แบบเสริมแรงอัลกอริทึมจะเรียนรู้นโยบาย” เขียนนักวิจัยในการศึกษาของพวกเขา

“ นโยบายกำหนดว่าจะดำเนินการในรัฐใด” เพื่อสร้างนโยบายนี้ DeepCube ได้พัฒนาระบบรางวัลของตนเองและใช้เฉพาะการเปลี่ยนแปลงในคิวบ์เรียนรู้ที่จะประเมินความสำเร็จที่เป็นไปได้ของการเคลื่อนไหวที่เสนอ มันทำสิ่งนี้ด้วยวิธีที่ฉลาดสุด ๆ แต่ใช้เวลานานอย่างเหลือเชื่อ (อย่างน้อยก็สำหรับมนุษย์)

เมื่อ DeepCube ตัดสินใจที่จะย้ายมันจะกระโดดไปข้างหน้าจนสุดไปยังคิวบ์ที่เสร็จสมบูรณ์จากนั้นกลับไปที่การปรับเปลี่ยนที่เสนอ ระบบนี้ช่วยให้ DeepCube ประเมินความสำเร็จโดยรวมของการย้าย

เมื่อรวบรวมข้อมูลได้เพียงพอแล้วระบบจะใช้วิธีการค้นหาแบบต้นไม้เพื่อตรวจสอบการค้นหาที่เป็นไปได้ทั้งหมดก่อนที่จะตัดสินใจว่าจะใช้เส้นทางใด “ อัลกอริทึมของเราสามารถแก้ปัญหาคิวบ์ที่มีสัญญาณรบกวนแบบสุ่มได้ 100 เปอร์เซ็นต์ในขณะที่บรรลุค่ามัธยฐานในการแก้ปัญหา 30 ครั้ง - น้อยกว่าหรือเท่ากับตัวแก้ที่ใช้ความรู้เกี่ยวกับโดเมนของมนุษย์” นักวิจัยเขียน

ในไม่ช้านักวิจัยจะยกระดับความท้าทายและทดสอบเทคนิค Autodidactic Iteration แบบใหม่บนลูกบาศก์ 16 เหลี่ยมที่แข็งขึ้น