AI summary 1 แหล่ง · 2 วันก่อน

งานวิจัยใหม่เสนนวิธีฝึก LLM ด้วยสัญญาณอ่อน แทนการติดป้ายข้อมูลแพง

ทีมวิจัยพบว่าแทนจะรอข้อมูล labeled ที่มีคุณภาพสูง เราสามารถรวมสัญญาณ \"อ่อน\" (weak signals) จากโมเดลตัวน้อยได้ — เช่นเอาความแตกต่างระหว่าง Qwen 4B กับ 1.7B มาใช้ฝึก 8B ให้แข็งแรง งานที่เกี่ยวข้องเน้นปัญหาจริง: rubric ของ LLM judge ต้องชัด ถ้าวาง \"helpful\" โดยไม่ระบุเพิ่มเติม มันก็ให้คะแนนตัวเลือกที่โพล่งแต่ผิด และการเปรียบเทียบ RAG ต้องควบคุมตัวแปรให้ขาด (budget, pool size, clustering) ไม่งั้นคะแนนเดียวกันอาจหมายถึงคนละอย่าง

แหล่งข่าว

ประเด็น

2 วันก่อน

อัปเดต

แหล่งต้นทาง · 5

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI 2 วันก่อน

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

arXiv — cs.AI 2 วันก่อน

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

arXiv — cs.AI 3 วันก่อน

PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges