Zhang et al. (2023) เมื่อเร็วๆ นี้ ได้เสนอแนวทางการกระตุ้นความคิดแบบต่อเนื่องหลายรูปแบบ CoT แบบดั้งเดิมมุ่งเน้นไปที่รูปแบบภาษา ในทางตรงกันข้าม Multimodal CoT ได้รวมข้อความและการมองเห็นไว้ในกรอบงานสองขั้นตอน ขั้นตอนแรกเกี่ยวข้องกับการสร้างเหตุผลโดยอาศัยข้อมูลหลายรูปแบบ ตามด้วยระยะที่สอง การอนุมานคำตอบ ซึ่งใช้ประโยชน์จากเหตุผลที่สร้างขึ้นจากข้อมูล
โมเดล CoT ต่อเนื่องหลายรูปแบบ (1B) มีประสิทธิภาพเหนือกว่า GPT-3.5 บนเกณฑ์มาตรฐาน ScienceQA
แหล่งที่มาของภาพ: Zhang et al. (2023)
อ่านเพิ่มเติม: Language Is Not All You Need: Aligning Perception with Language Models (Feb 2023)