AI summary 1 แหล่ง · 2 วันก่อน

งานวิจัยใหม่เสนนวิธีฝึก LLM ด้วยสัญญาณอ่อน แทนการติดป้ายข้อมูลแพง

ทีมวิจัยพบว่าแทนจะรอข้อมูล labeled ที่มีคุณภาพสูง เราสามารถรวมสัญญาณ \"อ่อน\" (weak signals) จากโมเดลตัวน้อยได้ — เช่นเอาความแตกต่างระหว่าง Qwen 4B กับ 1.7B มาใช้ฝึก 8B ให้แข็งแรง งานที่เกี่ยวข้องเน้นปัญหาจริง: rubric ของ LLM judge ต้องชัด ถ้าวาง \"helpful\" โดยไม่ระบุเพิ่มเติม มันก็ให้คะแนนตัวเลือกที่โพล่งแต่ผิด และการเปรียบเทียบ RAG ต้องควบคุมตัวแปรให้ขาด (budget, pool size, clustering) ไม่งั้นคะแนนเดียวกันอาจหมายถึงคนละอย่าง

01
แหล่งข่าว
00
ประเด็น
2 วันก่อน
อัปเดต
แหล่งต้นทาง · 5

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง