วิธีที่เราพัฒนากลยุทธ์เพื่อชัยชนะสำหรับการแข่งขัน RoboCup โดยการเลียนแบบธรรมชาติ

วิธีที่เราพัฒนากลยุทธ์เพื่อชัยชนะสำหรับการแข่งขัน RoboCup โดยการเลียนแบบธรรมชาติ

“ในฟุตบอล ทุกสิ่งมีความซับซ้อนโดยการปรากฏตัวของทีมตรงข้าม” ข้อสังเกตนี้โดยนักปรัชญาชาวฝรั่งเศสฌอง-ปอล ซาร์ตร์ได้รับการอ้างถึงในหลายบริบท ตั้งแต่การวางแผนยุทธวิธีในกีฬาประเภททีม ไปจนถึงการสร้างแบบจำลองทางทฤษฎีเกมของเศรษฐศาสตร์จุลภาค ไปจนถึงสงครามหุ่นยนต์เต็มรูปแบบ หัวข้อทั่วไปในการศึกษาทั้งหมดนี้คือความขัดแย้ง: ปฏิสัมพันธ์ของฝ่ายตรงข้ามนำมาซึ่งความระส่ำระสายที่สามารถทำลายแผนการที่เตรียมไว้มากที่สุด

สิ่งนี้ดำเนินการในหลายโดเมน เมื่อการออกแบบ ไม่ว่าจะเป็นแผน

ยุทธวิธีหรือพิมพ์เขียววิศวกรรม – สัมผัสกับสถานการณ์ที่คาดไม่ถึงบางอย่าง – เช่น กลยุทธ์ใหม่ของคู่ต่อสู้หรือภัยพิบัติทางธรรมชาติ – ก็มีแนวโน้มที่จะพังทลายไม่ว่าการเตรียมการจะละเอียดและเหมาะสมที่สุดเพียงใด วิธีหนึ่งสำหรับระบบที่ซับซ้อนในการทนต่อความเครียดอย่างกะทันหันคือการใช้ประโยชน์จากการจัดระเบียบตนเองของส่วนต่างๆ และปรับตัวให้เข้ากับสถานการณ์ที่เปลี่ยนแปลง

แต่สิ่งนี้มาพร้อมกับค่าใช้จ่าย เป็นการยากที่จะคาดเดาว่าระบบที่ซับซ้อนจะทำงานอย่างไร หากทำได้เพียงแบ่งพาร์ติชันและวิเคราะห์พฤติกรรมของแต่ละส่วนแยกกัน

มีวิธีที่จะคาดการณ์สิ่งที่ไม่คาดฝันหรือไม่? นี่คือความท้าทายหลักที่นักวิจัย ” ระบบที่ซับซ้อน ” ต้องเผชิญ ซึ่งออกแบบและสร้างระบบที่มีความทนทานและความยืดหยุ่นโดยธรรมชาติ

เราสามารถแสดงให้เห็นถึงความท้าทายนี้โดยการกลับไปเล่นฟุตบอล และโดยเฉพาะอย่างยิ่งฟุตบอลหุ่นยนต์

RoboCupคือฟุตบอลโลกของหุ่นยนต์ฟุตบอล ขณะนี้ใกล้จะครบรอบ 20 ปี กิจกรรมล่าสุดได้ดึงดูดผู้เข้าชมและผู้เข้าร่วมมากกว่า 40,000 คนจากกว่า 45 ประเทศ นอกจากนี้ยังเป็นเกณฑ์มาตรฐานชั้นนำ

ใน RoboCup 2D Simulation League สองทีมจาก 11 โปรแกรมซอฟต์แวร์อัตโนมัติเต็มรูปแบบ (เรียกว่า “ตัวแทน”) เล่นฟุตบอลในสนามฟุตบอลเสมือนจริงสองมิติโดยไม่มีการควบคุมระยะไกล ชุมชน RoboCup ทั้งหมดได้พัฒนาโปรแกรมจำลองแบบโอเพ่นซอร์สและซอฟต์แวร์การสร้างภาพมากกว่า 20 ปี ประกอบด้วยรหัสเกือบล้านบรรทัด

เจ้าหน้าที่แต่ละคนมีเซ็นเซอร์ภาพเสมือนจริง เสียง และทางกายภาพเพื่อตรวจจับสิ่งที่เกิดขึ้นรอบตัวพวกเขา และแต่ละคนสามารถดำเนินการพื้นฐานบางอย่าง เช่น วิ่ง หมุนตัว และเตะบอล

ความท้าทายหลักคือการได้รับการดำเนินการที่ดีที่สุดเท่าที่จะเป็นไป

ได้เพื่อดำเนินการในเวลาใดเวลาหนึ่งในขณะที่เผชิญกับการกระทำที่ไม่คาดคิดและก่อกวนของตัวแทนฝ่ายตรงข้าม

แต่ละขั้นตอนการจำลองใช้เวลาเพียง 1 ใน 10 ของวินาที ซึ่งในระหว่างที่วงจรประสาทสัมผัส-มอเตอร์ทั้งหมดเกิดขึ้นภายในตัวแทน สิ่งนี้เริ่มต้นด้วยการรับอินพุตทางประสาทสัมผัสใหม่จากเครื่องจำลอง จากนั้นจะประเมินตัวเลือกที่เป็นไปได้ – สูงสุด 100,000 รายการต่อรอบ – และส่งการดำเนินการที่เลือกกลับไปยังเครื่องจำลอง

ทีม Gliders2016ซึ่งชนะการแข่งขันการจำลองสถานการณ์ในปี 2016 ในเดือนกรกฎาคมปีนี้ เป็นความพยายามร่วมกันของมหาวิทยาลัยซิดนีย์ (ศาสตราจารย์ Mikhail Prokopenko, Dr Victor Jauregui) และ CSIRO (Peter Wang, Dr Oliver Obst)

เราประเมินซอฟต์แวร์โดยใช้คลัสเตอร์ซูเปอร์คอมพิวเตอร์หลายกลุ่ม ดำเนินการทดลองหลายหมื่นครั้งต่อวัน จำนวนการทดลองดังกล่าวใกล้ถึง 10 ล้านครั้ง

ภาพใหญ่ขึ้น

ในระหว่างการทดสอบ เราไม่ได้เพียงแค่ดูว่าซอฟต์แวร์เอเจนต์ทำงานเป็นรายบุคคลหรือเป็นทีมได้อย่างชาญฉลาดเพียงใด เรายังพิจารณาภาพรวม

เราดูความซับซ้อนของพฤติกรรมของทีมตรงข้าม และไม่ว่าซอฟต์แวร์ของเราจะปรับเปลี่ยนได้ง่าย ปรับขนาดได้ และทนทานต่อการเปลี่ยนแปลงหรือไม่

เราวิเคราะห์วิธีที่ทีมของเราสามารถตอบสนองต่อความแปลกใหม่ที่คู่แข่งอาจปล่อยออกมาในทัวร์นาเมนต์ถัดไป และไม่ว่าจะสามารถฟื้นตัวจากความพ่ายแพ้อย่างกะทันหันในระหว่างเกมได้หรือไม่

คำถามเหล่านี้จำนวนมากสอดคล้องกับปัญหาทั่วไปที่พบในระบบที่ซับซ้อน เราต้องพิจารณาว่าการเปลี่ยนแปลงเล็กน้อยในเงื่อนไขเริ่มต้น เช่น การเพิ่มความเสี่ยงในการจ่ายบอล สามารถส่งผลต่อผลลัพธ์โดยรวมได้อย่างไร อีกแง่มุมหนึ่งคือไดนามิกของระบบมีแนวโน้มที่จะทำซ้ำวิถีเฉพาะหรือไม่ นอกจากนี้เรายังศึกษาบทบาทของการสุ่มในการจำลองและวิธีการจำลองตัวแปรที่ซ่อนอยู่

ในระยะสั้น เราได้สำรวจว่าระบบที่ซับซ้อนสามารถช่วยในการพัฒนาทีมที่ชนะ RoboCup ในปี 2559 ได้อย่างไร

แรงบันดาลใจจากธรรมชาติ

ข้อมูลเชิงลึกอย่างหนึ่งที่เป็นแรงบันดาลใจให้กับกลยุทธ์ในทีมของเราคือรูปแบบที่สังเกตได้จากฝูงนกและฝูงปลา นี่เป็นกรณีคลาสสิกของความซับซ้อนทางชีววิทยา

เพื่อตอบสนองต่อนักล่า กลุ่มปลาจำนวนมากแสดงรูปแบบที่ซับซ้อนของการรวมตัวเชิงพื้นที่ เพื่อให้สิ่งรบกวนเล็กๆ น้อยๆ สามารถไหลลงไปยังกลุ่มทั้งหมดอย่างรวดเร็ว ถ่ายโอนข้อมูลที่สำคัญต่อการอยู่รอด

สำหรับทีม RoboCup ของเรา พฤติกรรมที่คล้ายกันช่วยให้ผู้เล่นเสมือนจริงบรรลุความคล่องตัวที่สอดคล้องกันในระดับสูง ในแง่หนึ่ง ผู้เล่นกำลังปรับปรุงตำแหน่งของตนอย่างต่อเนื่องเพื่อตอบสนองต่อผู้เล่นฝ่ายตรงข้าม ในทางกลับกัน การเปลี่ยนตำแหน่งนั้นไม่แน่นอนและผู้เล่นจะเคลื่อนไหวอย่างสอดประสานกัน

กลยุทธ์ของทีมยังได้รับการพัฒนาเพื่อต่อต้านคู่ต่อสู้ประเภทต่างๆ สร้างพฤติกรรมที่หลากหลายและเพิ่มความแข็งแกร่งและความยืดหยุ่น เราประเมินแนวทางนี้โดยใช้ทฤษฎีสารสนเทศ หาปริมาณและทำนาย “การไหลของข้อมูล” ภายในระบบ แทนที่จะเป็นเพียง “การไหลของข้อมูล” ข้อแตกต่างที่สำคัญคือข้อมูลให้บริบทสำหรับข้อมูล และกระแสข้อมูลเน้นไดนามิกที่เกี่ยวข้องและโดดเด่นที่สุด

Credit : สล็อต