Multimodal CoT Prompting

ต้นฉบับ : Multimodal CoT Prompting การแจ้ง CoT ต่อเนื่องหลายรูปแบบ

Zhang et al. (2023) เมื่อเร็วๆ นี้ ได้เสนอแนวทางการกระตุ้นความคิดแบบต่อเนื่องหลายรูปแบบ CoT แบบดั้งเดิมมุ่งเน้นไปที่รูปแบบภาษา ในทางตรงกันข้าม Multimodal CoT ได้รวมข้อความและการมองเห็นไว้ในกรอบงานสองขั้นตอน ขั้นตอนแรกเกี่ยวข้องกับการสร้างเหตุผลโดยอาศัยข้อมูลหลายรูปแบบ ตามด้วยระยะที่สอง การอนุมานคำตอบ ซึ่งใช้ประโยชน์จากเหตุผลที่สร้างขึ้นจากข้อมูล

โมเดล CoT ต่อเนื่องหลายรูปแบบ (1B) มีประสิทธิภาพเหนือกว่า GPT-3.5 บนเกณฑ์มาตรฐาน ScienceQA

แหล่งที่มาของภาพ: Zhang et al. (2023)

อ่านเพิ่มเติม: Language Is Not All You Need: Aligning Perception with Language Models (Feb 2023)

Page updated

Google Sites

Report abuse