Clavié et al., 2023 จัดทำกรณีศึกษาเกี่ยวกับวิศวกรรมพร้อมท์ที่ใช้กับกรณีการใช้งานการจำแนกข้อความขนาดกลางในระบบการผลิต โดยใช้งานในการจำแนกว่างานนั้นเป็น "งานระดับเริ่มต้น" จริงหรือไม่ เหมาะสำหรับผู้สำเร็จการศึกษาล่าสุดหรือไม่ โดยประเมินชุดเทคนิคทางวิศวกรรมที่รวดเร็วและรายงานผลลัพธ์โดยใช้ GPT-3.5 (gpt-3.5-turbo)
ผลการวิจัยแสดงให้เห็นว่า LLM มีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ทั้งหมดที่ทดสอบ รวมถึงพื้นฐานที่แข็งแกร่งอย่างมากใน DeBERTa-V3 gpt-3.5-turbo ยังมีประสิทธิภาพเหนือกว่าตัวแปร GPT3 รุ่นเก่าอย่างเห็นได้ชัดในเมตริกหลักทั้งหมด แต่ต้องมีการแยกวิเคราะห์เอาต์พุตเพิ่มเติม เนื่องจากความสามารถในการยึดติดกับเทมเพลตดูเหมือนจะแย่กว่าตัวแปรอื่นๆ
ข้อค้นพบที่สำคัญของแนวทางวิศวกรรมที่รวดเร็วมีดังนี้:
สำหรับงานเช่นนี้ ซึ่งไม่จำเป็นต้องมีความรู้จากผู้เชี่ยวชาญ การแจ้งเตือน Few-shot CoT จะทำงานได้แย่กว่าการแจ้งเตือนแบบ Zero-shot ในการทดลองทั้งหมด
ผลกระทบของการแจ้งเตือนในการให้เหตุผลที่ถูกต้องนั้นมีผลกระทบอย่างมาก เพียงขอให้แบบจำลองจัดประเภทผลลัพธ์ของงานที่กำหนดด้วยคะแนน F1 อยู่ที่ 65.6 ในขณะที่แบบจำลองทางวิศวกรรมภายหลังได้รับแจ้งจะได้คะแนน F1 อยู่ที่ 91.7
การพยายามบังคับให้โมเดลยึดติดกับเทมเพลตจะทำให้ประสิทธิภาพลดลงในทุกกรณี (ลักษณะการทำงานนี้หายไปในการทดสอบช่วงแรกๆ ด้วย GPT-4 ซึ่งอยู่ด้านหลังกระดาษ)
การปรับเปลี่ยนเล็กๆ น้อยๆ จำนวนมากมีผลกระทบต่อประสิทธิภาพอย่างมาก
ตารางด้านล่างแสดงการดัดแปลงทั้งหมดที่ทดสอบ
การให้คำแนะนำอย่างเหมาะสมและการพูดประเด็นสำคัญซ้ำๆ ดูเหมือนจะเป็นตัวขับเคลื่อนประสิทธิภาพที่ใหญ่ที่สุด
สิ่งง่ายๆ อย่างการตั้งชื่อโมเดล (มนุษย์) และเรียกโมเดลว่าคะแนน F1 เพิ่มขึ้น 0.6pts
Template stickiness หมายถึงความถี่ที่โมเดลจะตอบในรูปแบบที่ต้องการ