AI summary 3 แหล่ง
· วันนี้ · 17:13
OpenAI เปิดแนวทางประเมิน AI ตัวจริง ตรวจสอบความสามารถและความปลอดภัย
OpenAI ปล่อยคู่มือวิธีประเมิน AI model ระดับ frontier อย่างไม่ลำเอียง ครอบคลุมการวัดความสามารถ safeguard และความถูกต้องของการทดสอบ พร้อมกับเห็นว่าวงการเริ่มสร้าง benchmark ใหม่ เช่น ITBench-AA และ EVA-Bench ที่ทดสอบงาน agentic จริงๆ ไม่ใช่แค่ benchmark ทั่วไป ซึ่งแสดงว่า frontier model ยังมีช่องว่างใหญ่ในงาน enterprise IT ที่ซับซ้อน
03
แหล่งข่าว
03
ประเด็น
วันนี้ · 17:13
อัปเดต
- OpenAI เผยแนวทางประเมิน third-party อย่างเป็นระบบ ครอบคลุม capability, safeguard, validity
- Frontier model ทั้งหมดยังได้คะแนนต่ำกว่า 50% ในงาน agentic enterprise IT ที่ซับซ้อน
- Benchmark ใหม่ (ITBench-AA, EVA-Bench, open-world eval) เน้นงานจริงยาวนาน ไม่ใช่ task ที่ optimize ง่าย
แหล่งต้นทาง · 6
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN EN EN EN
Hugging Face Blog วันนี้ · 12:24
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios
OpenAI Blog 6 วันก่อน
A shared playbook for trustworthy third party evaluations
Hugging Face Blog 27 พ.ค.
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
OpenAI Blog 27 พ.ค.
Warp’s big bet on building open source with GPT-5.5
arXiv — cs.AI 22 พ.ค.
$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems
arXiv — cs.AI 22 พ.ค.
Open-World Evaluations for Measuring Frontier AI Capabilities
แชร์
ข่าวที่เกี่ยวข้อง
ChatGPT เพิ่มระบบความจำใหม่ จำเอกสารและการตั้งค่าผู้ใช้ได้
1 แหล่ง · วันนี้ · 17:16
ปัญหาแท้ของ Enterprise AI: ไม่ใช่ AI แต่เป็นข้อมูล บริบท และเอกสาร
2 แหล่ง · วันนี้ · 17:16
องค์กรเปลี่ยนจากเลือกแพลตฟอร์มเดียวเป็นคิด multicloud เพื่อเอาตัวรอด
1 แหล่ง · วันนี้ · 17:15
ป้องกัน AI-based threats ต้องเปลี่ยนวิธี: zero trust + identity intelligence + continuous validation
1 แหล่ง · วันนี้ · 17:14
บริษัทเทคโนโลยีตัดงบ AI หลังใช้จนหมดในไม่กี่เดือน ค้นพบผลตอบแทนไม่ชัด
3 แหล่ง · วันนี้ · 17:14