Tree of Thoughts (ToT)

ต้นฉบับ : Tree of Thoughts (ToT) ต้นไม้แห่งความคิด (ToT)

สำหรับงานที่ซับซ้อนซึ่งต้องมีการสำรวจหรือมองไปข้างหน้าอย่างมีกลยุทธ์ เทคนิคการกระตุ้นเตือนแบบเดิมๆ หรือแบบง่ายๆ จะไม่เพียงพอ ยาวและเอล (2023) และลอง (2023)

ข้อเสนอ Tree of Thoughts (ToT) ซึ่งเป็นกรอบการทำงานที่สรุปภาพรวมของการกระตุ้นเตือนแบบลูกโซ่และส่งเสริมการสำรวจความคิดที่ทำหน้าที่เป็นขั้นตอนกลางสำหรับการแก้ปัญหาทั่วไปด้วยแบบจำลองภาษา

ToT รักษาต้นไม้แห่งความคิด โดยที่ความคิดเป็นตัวแทนของลำดับภาษาที่สอดคล้องกันซึ่งทำหน้าที่เป็นขั้นตอนกลางในการแก้ปัญหา แนวทางนี้ช่วยให้ LM สามารถประเมินความก้าวหน้าด้วยตนเองผ่านความคิดขั้นกลางที่มีต่อการแก้ปัญหาผ่านกระบวนการให้เหตุผลโดยเจตนา ความสามารถของ LM ในการสร้างและประเมินความคิดจะรวมกับอัลกอริธึมการค้นหา (เช่น การค้นหาแบบกว้างก่อนและการค้นหาเชิงลึกก่อน) เพื่อให้สามารถสำรวจความคิดอย่างเป็นระบบด้วยการมองไปข้างหน้าและการย้อนรอย

กรอบการทำงาน ToT มีภาพประกอบด้านล่าง:

ที่มาของภาพ: Yao et el. (2023)

เมื่อใช้ ToT งานที่แตกต่างกันจะต้องกำหนดจำนวนผู้สมัครและจำนวนความคิด/ขั้นตอน ตัวอย่างเช่น ดังที่แสดงในรายงาน เกม 24 ถูกใช้เป็นงานการให้เหตุผลทางคณิตศาสตร์ซึ่งต้องแยกย่อยความคิดออกเป็น 3 ขั้นตอน โดยแต่ละขั้นตอนเกี่ยวข้องกับสมการระดับกลาง ในแต่ละขั้นตอน จะเก็บตัวเลือก b=5 ที่ดีที่สุดไว้

ในการดำเนินการ BFS ใน ToT สำหรับงาน Game of 24 LM จะได้รับแจ้งให้ประเมินผู้สมัครที่มีความคิดแต่ละคนว่า "แน่นอน/อาจจะ/เป็นไปไม่ได้" โดยคำนึงถึงคะแนนถึง 24 คะแนน ดังที่ผู้เขียนระบุไว้ "จุดมุ่งหมายคือการส่งเสริมวิธีแก้ปัญหาบางส่วนที่ถูกต้อง ที่สามารถตัดสินได้ภายในการทดลอง lookahead เพียงไม่กี่ครั้ง และกำจัดวิธีแก้ปัญหาบางส่วนที่เป็นไปไม่ได้โดยยึดตามสามัญสำนึก "ใหญ่/เล็กเกินไป" และเก็บส่วนที่เหลือ "อาจจะ" ค่าจะถูกสุ่มตัวอย่าง 3 ครั้งสำหรับแต่ละความคิด กระบวนการนี้แสดงไว้ด้านล่าง:

ที่มาของภาพ: Yao et el. (2023)

จากผลลัพธ์ที่รายงานในรูปด้านล่าง ToT มีประสิทธิภาพเหนือกว่าวิธีการแจ้งอื่นๆ อย่างมาก:

ที่มาของภาพ: Yao et el. (2023)

รหัสมีอยู่ ที่นี่ และที่นี่

ในระดับสูงแนวคิดหลักของเหยาเอตเอล (2023) และลอง (2023) มีความคล้ายคลึงกัน ทั้งสองเพิ่มขีดความสามารถของ LLM ในการแก้ปัญหาที่ซับซ้อนผ่านการค้นหาแบบต้นไม้ผ่านการสนทนาแบบหลายรอบ ความแตกต่างที่สำคัญอย่างหนึ่งก็คือ Yao et el. (2023) ใช้ประโยชน์จากการค้นหา DFS/BFS/ลำแสง ในขณะที่กลยุทธ์การค้นหาแบบต้นไม้ (เช่น เมื่อใดที่จะย้อนรอยและย้อนรอยตามจำนวนระดับ ฯลฯ) ที่เสนอใน Long (2023) ขับเคลื่อนโดย "ToT Controller" ที่ได้รับการฝึกฝนผ่านการเรียนรู้แบบเสริมแรง DFS/BFS/Beam search เป็นกลยุทธ์การค้นหาคำตอบทั่วไปที่ไม่มีการปรับให้เหมาะสมกับปัญหาเฉพาะ ในทางตรงกันข้าม ToT Controller ที่ได้รับการฝึกฝนผ่าน RL อาจสามารถเรียนรู้จากชุดข้อมูลใหม่หรือผ่านการเล่นกับตัวเอง (AlphaGo กับการค้นหาแบบบรูทฟอร์ซ) ดังนั้น ระบบ RL-based ToT จึงสามารถพัฒนาและเรียนรู้ความรู้ใหม่ต่อไปได้แม้ว่า LLM จะคงที่ก็ตาม

Hulbert (2023) ได้เสนอ Tree-of-Thought Prompting ซึ่งใช้แนวคิดหลักจากกรอบงาน ToT เป็นเทคนิคการกระตุ้นเตือนแบบง่ายๆ ทำให้ LLM ประเมินความคิดระดับกลางได้ในพร้อมท์เดียว ตัวอย่างพรอมต์ ToT คือ:

Imagine three different experts are answering this question.

All experts will write down 1 step of their thinking,

then share it with the group.

Then all experts will go on to the next step, etc.

If any expert realises they're wrong at any point then they leave.

The question is...

Sun (2023) เปรียบเทียบ Tree-of-Thought Prompting ด้วยการทดลองขนาดใหญ่ และแนะนำ PanelGPT --- แนวคิดในการกระตุ้นด้วยการอภิปรายแบบ Panel ในกลุ่ม LLMs

Page updated

Google Sites

Report abuse