AI summary 2 แหล่ง · 2 วันก่อน

วิจัยใหม่แก้ปัญหา LLM Agent ในงานยาว: จัดการ Context อัจฉริยะ ตรวจสอบความน่าเชื่อถือ

นักวิจัยเผยวิธีแก้ปัญหาหลักของ LLM agents ในงานระยะยาว — context degradation, distribution shift, และ prompt drift ที่ทำให้ agent ล้มเหลว งานวิจัยใหม่ๆ เสนอ AdaCoM (adaptive context management), event-sourced architecture, runtime verification, และ write-time intelligence เพื่อให้ agents ทำงานได้เสถียรและตรวจสอบได้ในระบบจริง ปัญหาเดิมคือ context ยาวขึ้น agent ใจลอย หรือ prompt เปลี่ยนแปลงเงียบๆ ตอนนี้มีวิธีควบคุมและตรวจสอบแบบ fine-grained แล้ว

02
แหล่งข่าว
03
ประเด็น
2 วันก่อน
อัปเดต
  • Context management ต้องปรับตัวตามแต่ละ agent — fixed strategy (summarization) ไม่พอ AdaCoM ทำได้โดยไม่ต้อง retrain closed-source models
  • Distribution shift ในหลายรอบสนทนาเพิ่มขึ้นแบบ quadratic — ต้องใช้ calibrated interactive RL แทน static offline logs
  • Runtime verification + event-sourced logs ให้ trace ได้ว่า agent เปลี่ยนใจเพราะอะไร (evidence, anchoring, prompt drift) ไม่ใช่ blackbox
แหล่งต้นทาง · 15

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

EN
arXiv — cs.AI 2 วันก่อน
Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs
EN
arXiv — cs.AI 3 วันก่อน
Learning Agent-Compatible Context Management for Long-Horizon Tasks
EN
arXiv — cs.AI 27 พ.ค.
From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
EN
arXiv — cs.AI 26 พ.ค.
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction
EN
arXiv — cs.AI 26 พ.ค.
BODHI: Precise OS Kernel Specification Inference
EN
arXiv — cs.AI 26 พ.ค.
Authority Inversion in LLM-Mediated Ubiquitous Systems: When Models Trust Users Over Sensors
EN
arXiv — cs.AI 25 พ.ค.
Parallel Context Compaction for Long-Horizon LLM Agent Serving
EN
arXiv — cs.AI 23 พ.ค.
The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems
EN
arXiv — cs.AI 22 พ.ค.
SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation
EN
arXiv — cs.AI 22 พ.ค.
PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
EN
Import AI 18 พ.ค.
Import AI 457: AI stuxnet; cursed Muon optimizer; and positive alignment
EN
arXiv — cs.AI 18 พ.ค.
DeepSlide: From Artifacts to Presentation Delivery
EN
arXiv — cs.AI 18 พ.ค.
Belief Engine: Configurable and Inspectable Stance Dynamics in Multi-Agent LLM Deliberation
EN
arXiv — cs.AI 18 พ.ค.
PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI
EN
arXiv — cs.AI 16 พ.ค.
Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations
แชร์
ข่าวที่เกี่ยวข้อง