Google DeepMind ซึ่งเป็นบริษัทในเครือของ Google ประกาศเมื่อวันที่ 13 มีนาคม (เวลาท้องถิ่น)
โครงการที่เรียกว่า “SIMA (Scalable Instructable Multiworld Agent)” เพื่อพัฒนาตัวแทน AI ที่สามารถดำเนินการตามคำแนะนำในภาษาธรรมชาติในสภาพแวดล้อมเสมือนจริง 3 มิติต่างๆ เช่น เป็นเกม
ฝึกฝนกับการเล่นเกมของผู้เล่นที่เชี่ยวชาญ
SIMA มีเป้าหมายที่จะพัฒนา “universal agent” ที่สามารถดำเนินการตามคำสั่ง natural language ในสภาพแวดล้อมเกม 3 มิติที่หลากหลาย และคาดว่าจะให้ผลลัพธ์ที่นอกเหนือไปจากกรอบของ AI ในเกมทั่วไป
คุณลักษณะของเอเจนต์ SIMA คือใช้อินเทอร์เฟซเดียวกันกับผู้เล่นที่เป็นมนุษย์ กล่าวคือ ใช้ข้อมูลภาพจากหน้าจอและคำแนะนำ natural language เป็น input และใช้การทำงานของแป้นพิมพ์และเมาส์เป็น output ด้วยเหตุนี้ เราจึงตั้งเป้าที่จะสร้าง AI ที่มีความอเนกประสงค์สูง โดยหลักการแล้วสามารถเล่นเกมได้ในลักษณะเดียวกับมนุษย์
ขั้นแรก เตรียมสภาพแวดล้อม 3 มิติต่างๆ เพื่อให้ตัวแทนสามารถเรียนรู้และประเมินผลในสภาพแวดล้อมที่หลากหลาย ซึ่งรวมถึงเกมเชิงพาณิชย์ เช่น “Teardown” “No Man’s Sky” และ “Valheim” ซึ่งต้องใช้ภาพสมจริงและการโต้ตอบที่ซับซ้อน สภาพแวดล้อมการวิจัยถูกสร้างขึ้นเพื่อประเมินทักษะเฉพาะด้านด้วย
ขั้นตอนต่อไปคือ การสร้างชุดข้อมูลที่จะใช้สำหรับการจำลองการเรียนรู้ของตัวแทน รวบรวมข้อมูลการเล่นเกมจำนวนมากจากผู้เล่นผู้เชี่ยวชาญ ข้อมูลรวมถึงวิดีโอ คำแนะนำข้อความ และบันทึกพฤติกรรม
จากนั้น ตัวแทนจะเข้าสู่ช่วงการเรียนรู้ เอเจนต์ได้รับการออกแบบด้วยสถาปัตยกรรมที่รวมโมเดลที่ได้รับการฝึกอบรมล่วงหน้าที่มีอยู่ (SPARC, Phenaki) และ Transformer ที่พัฒนาตั้งแต่เริ่มต้น และทำการเรียนรู้ภายใต้การดูแล (การโคลนพฤติกรรม) จากการสาธิตของมนุษย์โดยใช้ข้อมูลที่รวบรวม
ตัวแทนได้รับการประเมินผ่านการประเมินเชิงอัตนัยโดยผู้ประเมินที่เป็นมนุษย์ และการประเมินอัตโนมัติในสภาพแวดล้อมการวิจัย
รูปด้านบนเปรียบเทียบประสิทธิภาพของตัวแทนภายใต้เงื่อนไขการเรียนรู้ที่แตกต่างกัน
ตามมาตรฐานสำหรับการเปรียบเทียบ ประสิทธิภาพของตัวแทนที่ได้รับการฝึกอบรมโดยเฉพาะสำหรับแต่ละสภาพแวดล้อม (เกม) (ตัวแทนเฉพาะสภาพแวดล้อม) จะถือเป็น 100%
เอเจนต์ที่เรียนรู้ในทุกสภาพแวดล้อม (ซ้าย) มีประสิทธิภาพสูงกว่าเอเจนต์เฉพาะสภาพแวดล้อมถึง 70% สิ่งนี้ชี้ให้เห็นว่าตัวแทนได้รับทักษะการใช้งานทั่วไปโดยการเรียนรู้ในสภาพแวดล้อมที่หลากหลาย
ในทางกลับกัน เมื่อประเมินในสภาพแวดล้อมที่ไม่รู้จัก (สื่อ: เกมไม่ได้ใช้เพื่อการเรียนรู้) แม้ว่าจะต่ำกว่าเอเจนต์เฉพาะสภาพแวดล้อม แต่ก็สามารถแสดงให้เห็นถึงประสิทธิภาพในระดับหนึ่ง
จึงสามารถกล่าวได้ว่ามี ความสามารถในการวางนัยทั่วไปในระดับหนึ่ง ฉันสามารถพูดได้
อย่างไรก็ตาม ภายใต้เงื่อนไขที่ไม่มีการป้อนข้อมูลด้วยคำพูด (ขวา) ประสิทธิภาพจะลดลงอย่างมาก
นี่แสดงให้เห็นว่าคำสั่งภาษามีบทบาทสำคัญในการกำหนดพฤติกรรมของตัวแทน
อย่างไรก็ตาม ประสิทธิภาพในปัจจุบันของตัวแทน SIMA ยังไม่ดีเท่ากับผู้เล่นที่เป็นมนุษย์
และการเชื่อมโยงระหว่างความเข้าใจภาษาและพฤติกรรมยังคงไม่สมบูรณ์
Google DeepMind มุ่งหวังที่จะปรับปรุงขีดความสามารถของตัวแทนโดยใช้สภาพแวดล้อมและข้อมูลมากขึ้น ในอนาคต คาดว่า AI เช่น SIMA จะถูกใช้เป็น NPC และอวาตาร์ผู้ใช้ในเกมและสภาพแวดล้อม 3 มิติต่างๆ
จนถึงขณะนี้ โดยทั่วไป AI ของเกมได้รับการพัฒนาโดยเฉพาะสำหรับเกมโดยเฉพาะ อย่างไรก็ตาม SIMA ใช้แนวทางใหม่ที่ใช้ความรู้ด้านสิ่งแวดล้อมโดยทั่วไปผ่านภาษา
แม้ว่าเทคโนโลยียังอยู่ในขั้นตอนการพัฒนา แต่ก็กำลังดึงดูดความสนใจในฐานะโครงการที่มีศักยภาพที่จะก้าวไปไกลกว่ากรอบของเกม และเปลี่ยนวิธีที่มนุษย์และ AI โต้ตอบกันในอนาคต