AI summary 3 แหล่ง · วันนี้ · 17:13

OpenAI เปิดแนวทางประเมิน AI ตัวจริง ตรวจสอบความสามารถและความปลอดภัย

OpenAI ปล่อยคู่มือวิธีประเมิน AI model ระดับ frontier อย่างไม่ลำเอียง ครอบคลุมการวัดความสามารถ safeguard และความถูกต้องของการทดสอบ พร้อมกับเห็นว่าวงการเริ่มสร้าง benchmark ใหม่ เช่น ITBench-AA และ EVA-Bench ที่ทดสอบงาน agentic จริงๆ ไม่ใช่แค่ benchmark ทั่วไป ซึ่งแสดงว่า frontier model ยังมีช่องว่างใหญ่ในงาน enterprise IT ที่ซับซ้อน

แหล่งข่าว

ประเด็น

วันนี้ · 17:13

อัปเดต

OpenAI เผยแนวทางประเมิน third-party อย่างเป็นระบบ ครอบคลุม capability, safeguard, validity
Frontier model ทั้งหมดยังได้คะแนนต่ำกว่า 50% ในงาน agentic enterprise IT ที่ซับซ้อน
Benchmark ใหม่ (ITBench-AA, EVA-Bench, open-world eval) เน้นงานจริงยาวนาน ไม่ใช่ task ที่ optimize ง่าย

แหล่งต้นทาง · 6

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

Hugging Face Blog วันนี้ · 12:24

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

OpenAI Blog 6 วันก่อน

A shared playbook for trustworthy third party evaluations

Hugging Face Blog 27 พ.ค.

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

OpenAI Blog 27 พ.ค.

Warp’s big bet on building open source with GPT-5.5

arXiv — cs.AI 22 พ.ค.

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems