AI summary 1 แหล่ง · วันนี้ · 05:15

LLM ต้องใช้โค้ดหรือการให้เหตุผล? วิจัยเปรียบเทียบความทนทานแบบจำลองการให้รางวัลกระบวนการ

3 บทความ arXiv ใหม่วิเคราะห์จุดอ่อนของ LLM ในปัญหาคณิตศาสตร์และการให้เหตุผลวิทยาศาสตร์ เมื่อเปลี่ยนตัวเลขหรือชื่อแม้เล็กน้อย LLM สูญความแม่นยำไป — แม้ใช้โค้ด Python ช่วยก็ไม่เสถียร วิจัยชี้ว่า Process Reward Models (PRM) สามารถตรวจจับข้อผิดพลาดขั้นกลางได้ แต่ยังไม่มี benchmark ครอบคลุมเพียงพอ โดยเฉพาะในโดเมนวิทยาศาสตร์ที่ต้องเครื่องมือเฉพาะ

01
แหล่งข่าว
00
ประเด็น
วันนี้ · 05:15
อัปเดต
แหล่งต้นทาง · 3

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง