การสะท้อนกลับเป็นกรอบการทำงานเพื่อเสริมสร้างตัวแทนที่ใช้ภาษาผ่านการตอบรับทางภาษา ตามข้อมูลของ Shinn et al. (2023) "การสะท้อนกลับเป็นกระบวนทัศน์ใหม่สำหรับการเสริมกำลัง 'วาจา' ที่กำหนดพารามิเตอร์นโยบายเป็นการเข้ารหัสหน่วยความจำของเอเจนต์ที่จับคู่กับตัวเลือกพารามิเตอร์ LLM"
ในระดับสูง Reflexion จะแปลงผลตอบรับ (ทั้งภาษารูปแบบอิสระหรือสเกลาร์) จากสภาพแวดล้อมเป็นการตอบรับทางภาษา หรือที่เรียกว่า การสะท้อนตนเอง ซึ่งจัดเตรียมไว้เป็นบริบทสำหรับตัวแทน LLM ใน ตอนต่อไป สิ่งนี้ช่วยให้ตัวแทนเรียนรู้อย่างรวดเร็วและมีประสิทธิภาพจากข้อผิดพลาดก่อนหน้านี้ซึ่งนำไปสู่การปรับปรุงประสิทธิภาพในงานขั้นสูงมากมาย
ดังแสดงในรูปด้านบน Reflexion ประกอบด้วยโมเดลที่แตกต่างกันสามแบบ:
An Actor นักแสดง: สร้างข้อความและการดำเนินการตามการสังเกตสถานะ นักแสดงดำเนินการในสภาพแวดล้อมและได้รับการสังเกตซึ่งส่งผลให้เกิดวิถี Chain-of-Thought (CoT) และ ReAct นอกจากนี้ ยังมีการเพิ่มส่วนประกอบหน่วยความจำเพื่อให้บริบทเพิ่มเติมแก่เอเจนต์
An Evaluator ผู้ประเมิน: ให้คะแนนผลงานที่นักแสดงสร้างขึ้น โดยสรุปแล้ว จะใช้เส้นทางที่สร้างขึ้นเป็นอินพุต (หรือเรียกว่าหน่วยความจำระยะสั้น) และส่งผลลัพธ์เป็นคะแนนรางวัล ฟังก์ชันการให้รางวัลที่แตกต่างกันจะถูกใช้ขึ้นอยู่กับงาน (LLM และการวิเคราะห์พฤติกรรมตามกฎจะใช้สำหรับงานการตัดสินใจ)
Self-Reflection การไตร่ตรองตนเอง: สร้างสัญญาณการเสริมกำลังทางวาจาเพื่อช่วยนักแสดงในการพัฒนาตนเอง บทบาทนี้บรรลุได้โดย LLM และให้ข้อเสนอแนะที่มีคุณค่าสำหรับการทดลองในอนาคต เพื่อสร้างผลตอบรับที่เฉพาะเจาะจงและเกี่ยวข้อง ซึ่งจัดเก็บไว้ในหน่วยความจำ โมเดลการสะท้อนตัวเองจะใช้สัญญาณรางวัล วิถีปัจจุบัน และหน่วยความจำถาวร ประสบการณ์เหล่านี้ (เก็บไว้ในหน่วยความจำระยะยาว) ถูกนำมาใช้โดยตัวแทนเพื่อปรับปรุงการตัดสินใจอย่างรวดเร็ว
โดยสรุป ขั้นตอนสำคัญของกระบวนการสะท้อนกลับคือ a) กำหนดงาน b) สร้างวิถี c) ประเมิน d) ดำเนินการไตร่ตรอง และ e) สร้างวิถีถัดไป รูปด้านล่างแสดงตัวอย่างวิธีที่ Reflexion Agent สามารถเรียนรู้ที่จะเพิ่มประสิทธิภาพพฤติกรรมซ้ำๆ เพื่อแก้ไขงานต่างๆ เช่น การตัดสินใจ การเขียนโปรแกรม และการใช้เหตุผล Reflexion ขยายกรอบงาน ReAct โดยการแนะนำส่วนประกอบการประเมินตนเอง การสะท้อนตนเอง และหน่วยความจำ
ผลการทดลองแสดงให้เห็นว่าตัวแทน Reflexion ปรับปรุงประสิทธิภาพในงานการตัดสินใจของ AlfWorld อย่างมีนัยสำคัญ คำถามที่ให้เหตุผลใน HotPotQA และงานการเขียนโปรแกรม Python บน HumanEval
เมื่อประเมินงานการตัดสินใจตามลำดับ (AlfWorld) ReAct + Reflexion มีประสิทธิภาพเหนือกว่า ReAct อย่างมากโดยทำงาน 130/134 งานให้สำเร็จโดยใช้เทคนิคการประเมินตนเองของ Heuristic และ GPT สำหรับการจำแนกประเภทไบนารี
การสะท้อนกลับมีประสิทธิภาพเหนือกว่าวิธีพื้นฐานทั้งหมดอย่างมีนัยสำคัญผ่านขั้นตอนการเรียนรู้หลายขั้นตอน เพื่อการให้เหตุผลเท่านั้น และเมื่อเพิ่มหน่วยความจำแบบตอนที่ประกอบด้วยวิถีล่าสุด Reflexion + CoT จะมีประสิทธิภาพเหนือกว่า CoT เท่านั้น และ CoT ที่มีหน่วยความจำแบบเหตุการณ์ตามลำดับ
ตามที่สรุปไว้ในตารางด้านล่าง โดยทั่วไปแล้ว Reflexion จะมีประสิทธิภาพเหนือกว่าแนวทางที่ล้ำสมัยก่อนหน้านี้ในการเขียนโค้ด Python และ Rust บน MBPP, HumanEval และ Leetcode Hard
การสะท้อนกลับเหมาะที่สุดสำหรับสิ่งต่อไปนี้:
ตัวแทนจำเป็นต้องเรียนรู้จากการลองผิดลองถูก: การสะท้อนกลับได้รับการออกแบบมาเพื่อช่วยให้ตัวแทนปรับปรุงประสิทธิภาพโดยการไตร่ตรองถึงข้อผิดพลาดในอดีตและผสมผสานความรู้นั้นเข้ากับการตัดสินใจในอนาคต ทำให้เหมาะสำหรับงานที่ตัวแทนต้องเรียนรู้ผ่านการลองผิดลองถูก เช่น การตัดสินใจ การใช้เหตุผล และการเขียนโปรแกรม
วิธีการเรียนรู้การเสริมกำลังแบบดั้งเดิมนั้นใช้ไม่ได้จริง: วิธีการเรียนรู้การเสริมกำลังแบบดั้งเดิม (RL) มักต้องใช้ข้อมูลการฝึกอบรมที่ครอบคลุมและการปรับแต่งแบบจำลองที่มีราคาแพง Reflexion นำเสนอทางเลือกที่ไม่ซับซ้อนซึ่งไม่จำเป็นต้องปรับแต่งโมเดลภาษาพื้นฐานอย่างละเอียด ทำให้มีประสิทธิภาพมากขึ้นในแง่ของข้อมูลและทรัพยากรการประมวลผล
จำเป็นต้องมีคำติชมที่เหมาะสม: การสะท้อนกลับใช้การตอบรับด้วยวาจา ซึ่งสามารถละเอียดและเฉพาะเจาะจงมากกว่าการให้รางวัลสเกลาร์ที่ใช้ใน RL แบบดั้งเดิม ซึ่งช่วยให้ตัวแทนเข้าใจข้อผิดพลาดได้ดีขึ้น และทำการปรับปรุงตามเป้าหมายมากขึ้นในการทดลองครั้งต่อๆ ไป
ความสามารถในการตีความและความจำที่ชัดเจนเป็นสิ่งสำคัญ: การสะท้อนกลับทำให้เกิดรูปแบบหน่วยความจำแบบเหตุการณ์ที่สามารถตีความได้และชัดเจนยิ่งขึ้น เมื่อเปรียบเทียบกับวิธี RL แบบดั้งเดิม การสะท้อนตนเองของตัวแทนจะถูกจัดเก็บไว้ในหน่วยความจำ ช่วยให้วิเคราะห์และทำความเข้าใจกระบวนการเรียนรู้ได้ง่ายขึ้น
การสะท้อนกลับมีประสิทธิภาพในงานต่อไปนี้:
การตัดสินใจตามลำดับ: เจ้าหน้าที่ Reflexion ปรับปรุงประสิทธิภาพในงาน AlfWorld ซึ่งเกี่ยวข้องกับการนำทางผ่านสภาพแวดล้อมที่หลากหลายและบรรลุวัตถุประสงค์หลายขั้นตอน
การใช้เหตุผล: Reflexion ปรับปรุงประสิทธิภาพของตัวแทนบน HotPotQA ซึ่งเป็นชุดข้อมูลการตอบคำถามที่ต้องใช้เหตุผลในเอกสารหลายฉบับ
การเขียนโปรแกรม: Reflexion Agent เขียนโค้ดได้ดีกว่าบนเกณฑ์มาตรฐาน เช่น HumanEval และ MBPP เพื่อให้ได้ผลลัพธ์ที่ล้ำสมัยในบางกรณี
นี่คือข้อจำกัดบางประการของการสะท้อน:
การพึ่งพาความสามารถในการประเมินตนเอง: การสะท้อนกลับขึ้นอยู่กับความสามารถของตัวแทนในการประเมินประสิทธิภาพอย่างแม่นยำ และสร้างการสะท้อนกลับที่เป็นประโยชน์ สิ่งนี้อาจเป็นเรื่องที่ท้าทาย โดยเฉพาะสำหรับงานที่ซับซ้อน แต่คาดว่า Reflexion จะดีขึ้นเมื่อเวลาผ่านไป เนื่องจากโมเดลมีการพัฒนาความสามารถอย่างต่อเนื่อง
ข้อจำกัดของหน่วยความจำระยะยาว: การสะท้อนกลับใช้หน้าต่างบานเลื่อนที่มีความจุสูงสุด แต่สำหรับงานที่ซับซ้อนมากขึ้น การใช้โครงสร้างขั้นสูง เช่น การฝังเวกเตอร์หรือฐานข้อมูล SQL อาจเป็นประโยชน์
ข้อจำกัดของหน่วยความจำระยะยาว: การสะท้อนกลับใช้หน้าต่างบานเลื่อนที่มีความจุสูงสุด แต่สำหรับงานที่ซับซ้อนมากขึ้น การใช้โครงสร้างขั้นสูง เช่น การฝังเวกเตอร์หรือฐานข้อมูล SQL อาจเป็นประโยชน์