# LLM 에이전트 평가는 왜 어려운가: 벤치마크와 실제 배포의 간극을 다룬 최근 논문들2026년 5월 arXiv에는 LLM 에이전트 평가의 한계를 정면으로 다루는 논문들이 연이어 올라왔다. "Design and Report Benchmarks for Knowledge Work"는 지식노동형 작업 평가가 여전히 전통적 NLP 태스크의 논리를 따르고 있어, 높은 벤치마크 성능이 실제 배포 환경에서의 수행 능력을 충분히 보여주지 못한다고 지적한다. "GENSTRAT"은 고정된 정형 게임 중심의 전략적 추론 벤치마크가 빠르게 포화될 수 있고, 복잡한 실제 전략 환경으로 일반화하기 어렵다고 본다. "When Planning Fails Despite Correct Execution"은 실행이 정확해도 계획 단계에..