AI summary 1 แหล่ง
· 2 วันก่อน
วิธีเทรนโมเดล AI ให้เหตุผลได้ดีขึ้น — จากการแข่งกันของวิธีการ 6 แบบใน arXiv
นักวิจัย arXiv ทดสอบวิธีการเทรนหลังจากที่เทรนหลัก (post-training) สำหรับ LLM ที่ต้องเหตุผลเชิงคณิตศาสตร์ — เช่น Lean theorem proving ผลการศึกษาพบว่า on-policy distillation (OPD) และ self-distillation (OPSD) ช่วยให้ได้ feedback หนาแน่นในระดับ token ได้ดีกว่า GRPO เดิม แต่มีปัญหาเรื่องความเสถียรและการล่มสลายแบบ mode collapse งานนี้มีค่าต่อ dev ที่อยากให้โมเดลของตัวเองเรียนรู้จากคำแนะนำของตัวเอง
01
แหล่งข่าว
00
ประเด็น
2 วันก่อน
อัปเดต
แหล่งต้นทาง · 6
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN EN EN EN
arXiv — cs.AI 2 วันก่อน
CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO
arXiv — cs.AI 3 วันก่อน
Distilling LLM Feedback for Lean Theorem Proving
arXiv — cs.AI 25 พ.ค.
EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation
arXiv — cs.AI 13 พ.ค.
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
arXiv — cs.AI 13 พ.ค.
Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack
arXiv — cs.AI 7 พ.ค.
From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
แชร์
ข่าวที่เกี่ยวข้อง
ChatGPT เพิ่มระบบความจำใหม่ จำเอกสารและการตั้งค่าผู้ใช้ได้
1 แหล่ง · วันนี้ · 17:16
ปัญหาแท้ของ Enterprise AI: ไม่ใช่ AI แต่เป็นข้อมูล บริบท และเอกสาร
2 แหล่ง · วันนี้ · 17:16
องค์กรเปลี่ยนจากเลือกแพลตฟอร์มเดียวเป็นคิด multicloud เพื่อเอาตัวรอด
1 แหล่ง · วันนี้ · 17:15
ป้องกัน AI-based threats ต้องเปลี่ยนวิธี: zero trust + identity intelligence + continuous validation
1 แหล่ง · วันนี้ · 17:14
บริษัทเทคโนโลยีตัดงบ AI หลังใช้จนหมดในไม่กี่เดือน ค้นพบผลตอบแทนไม่ชัด
3 แหล่ง · วันนี้ · 17:14