Graduate Job Classification Case Study

Graduate Job Classification Case Study กรณีศึกษาการจำแนกประเภทงานระดับบัณฑิตศึกษา

Clavié et al., 2023 จัดทำกรณีศึกษาเกี่ยวกับวิศวกรรมพร้อมท์ที่ใช้กับกรณีการใช้งานการจำแนกข้อความขนาดกลางในระบบการผลิต โดยใช้งานในการจำแนกว่างานนั้นเป็น "งานระดับเริ่มต้น" จริงหรือไม่ เหมาะสำหรับผู้สำเร็จการศึกษาล่าสุดหรือไม่ โดยประเมินชุดเทคนิคทางวิศวกรรมที่รวดเร็วและรายงานผลลัพธ์โดยใช้ GPT-3.5 (gpt-3.5-turbo)

ผลการวิจัยแสดงให้เห็นว่า LLM มีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ทั้งหมดที่ทดสอบ รวมถึงพื้นฐานที่แข็งแกร่งอย่างมากใน DeBERTa-V3 gpt-3.5-turbo ยังมีประสิทธิภาพเหนือกว่าตัวแปร GPT3 รุ่นเก่าอย่างเห็นได้ชัดในเมตริกหลักทั้งหมด แต่ต้องมีการแยกวิเคราะห์เอาต์พุตเพิ่มเติม เนื่องจากความสามารถในการยึดติดกับเทมเพลตดูเหมือนจะแย่กว่าตัวแปรอื่นๆ

ข้อค้นพบที่สำคัญของแนวทางวิศวกรรมที่รวดเร็วมีดังนี้:

สำหรับงานเช่นนี้ ซึ่งไม่จำเป็นต้องมีความรู้จากผู้เชี่ยวชาญ การแจ้งเตือน Few-shot CoT จะทำงานได้แย่กว่าการแจ้งเตือนแบบ Zero-shot ในการทดลองทั้งหมด
ผลกระทบของการแจ้งเตือนในการให้เหตุผลที่ถูกต้องนั้นมีผลกระทบอย่างมาก เพียงขอให้แบบจำลองจัดประเภทผลลัพธ์ของงานที่กำหนดด้วยคะแนน F1 อยู่ที่ 65.6 ในขณะที่แบบจำลองทางวิศวกรรมภายหลังได้รับแจ้งจะได้คะแนน F1 อยู่ที่ 91.7
การพยายามบังคับให้โมเดลยึดติดกับเทมเพลตจะทำให้ประสิทธิภาพลดลงในทุกกรณี (ลักษณะการทำงานนี้หายไปในการทดสอบช่วงแรกๆ ด้วย GPT-4 ซึ่งอยู่ด้านหลังกระดาษ)
การปรับเปลี่ยนเล็กๆ น้อยๆ จำนวนมากมีผลกระทบต่อประสิทธิภาพอย่างมาก
- ตารางด้านล่างแสดงการดัดแปลงทั้งหมดที่ทดสอบ
- การให้คำแนะนำอย่างเหมาะสมและการพูดประเด็นสำคัญซ้ำๆ ดูเหมือนจะเป็นตัวขับเคลื่อนประสิทธิภาพที่ใหญ่ที่สุด
- สิ่งง่ายๆ อย่างการตั้งชื่อโมเดล (มนุษย์) และเรียกโมเดลว่าคะแนน F1 เพิ่มขึ้น 0.6pts

Prompt Modifications Tested ทดสอบการแก้ไขทันที

Performance Impact of All Prompt Modifications ผลกระทบต่อประสิทธิภาพของการปรับเปลี่ยนพร้อมท์ทั้งหมด

Template stickiness หมายถึงความถี่ที่โมเดลจะตอบในรูปแบบที่ต้องการ

Page updated

Google Sites

Report abuse