AI summary 1 แหล่ง · 2 วันก่อน

วิธีเทรนโมเดล AI ให้เหตุผลได้ดีขึ้น — จากการแข่งกันของวิธีการ 6 แบบใน arXiv

นักวิจัย arXiv ทดสอบวิธีการเทรนหลังจากที่เทรนหลัก (post-training) สำหรับ LLM ที่ต้องเหตุผลเชิงคณิตศาสตร์ — เช่น Lean theorem proving ผลการศึกษาพบว่า on-policy distillation (OPD) และ self-distillation (OPSD) ช่วยให้ได้ feedback หนาแน่นในระดับ token ได้ดีกว่า GRPO เดิม แต่มีปัญหาเรื่องความเสถียรและการล่มสลายแบบ mode collapse งานนี้มีค่าต่อ dev ที่อยากให้โมเดลของตัวเองเรียนรู้จากคำแนะนำของตัวเอง

01
แหล่งข่าว
00
ประเด็น
2 วันก่อน
อัปเดต
แหล่งต้นทาง · 6

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง