AI summary 1 แหล่ง · 2 วันก่อน

วิธีเทรนโมเดล AI ให้เหตุผลได้ดีขึ้น — จากการแข่งกันของวิธีการ 6 แบบใน arXiv

นักวิจัย arXiv ทดสอบวิธีการเทรนหลังจากที่เทรนหลัก (post-training) สำหรับ LLM ที่ต้องเหตุผลเชิงคณิตศาสตร์ — เช่น Lean theorem proving ผลการศึกษาพบว่า on-policy distillation (OPD) และ self-distillation (OPSD) ช่วยให้ได้ feedback หนาแน่นในระดับ token ได้ดีกว่า GRPO เดิม แต่มีปัญหาเรื่องความเสถียรและการล่มสลายแบบ mode collapse งานนี้มีค่าต่อ dev ที่อยากให้โมเดลของตัวเองเรียนรู้จากคำแนะนำของตัวเอง

แหล่งข่าว

ประเด็น

2 วันก่อน

อัปเดต

แหล่งต้นทาง · 6

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI 2 วันก่อน

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

arXiv — cs.AI 3 วันก่อน

Distilling LLM Feedback for Lean Theorem Proving

arXiv — cs.AI 25 พ.ค.

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation