AI summary 3 แหล่ง · วันนี้ · 17:13

OpenAI เปิดแนวทางประเมิน AI ตัวจริง ตรวจสอบความสามารถและความปลอดภัย

OpenAI ปล่อยคู่มือวิธีประเมิน AI model ระดับ frontier อย่างไม่ลำเอียง ครอบคลุมการวัดความสามารถ safeguard และความถูกต้องของการทดสอบ พร้อมกับเห็นว่าวงการเริ่มสร้าง benchmark ใหม่ เช่น ITBench-AA และ EVA-Bench ที่ทดสอบงาน agentic จริงๆ ไม่ใช่แค่ benchmark ทั่วไป ซึ่งแสดงว่า frontier model ยังมีช่องว่างใหญ่ในงาน enterprise IT ที่ซับซ้อน

03
แหล่งข่าว
03
ประเด็น
วันนี้ · 17:13
อัปเดต
  • OpenAI เผยแนวทางประเมิน third-party อย่างเป็นระบบ ครอบคลุม capability, safeguard, validity
  • Frontier model ทั้งหมดยังได้คะแนนต่ำกว่า 50% ในงาน agentic enterprise IT ที่ซับซ้อน
  • Benchmark ใหม่ (ITBench-AA, EVA-Bench, open-world eval) เน้นงานจริงยาวนาน ไม่ใช่ task ที่ optimize ง่าย
แหล่งต้นทาง · 6

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง