\

전체 글 78

롱호라이즌 에이전트는 왜 무너질까? HORIZON과 장기 실행 진단의 핵심

# 롱호라이즌 에이전트는 왜 무너질까? HORIZON과 장기 실행 진단의 핵심최근 LLM 에이전트는 짧거나 중간 길이의 과제에서는 강한 모습을 보이지만, 길고 서로 의존적인 행동이 이어지는 장기 과제에서는 쉽게 무너질 수 있다는 문제가 다시 주목받고 있다. arXiv에 공개된 "The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break"는 이런 공백을 다루기 위해 HORIZON을 제안하며, 장기 과제 실패를 체계적으로 진단하고 비교할 수 있는 초기 cross-domain diagnostic benchmark라는 점을 전면에 둔다. [S1]논문 소개: HORIZON이 다루는 문제HORIZON은 장기 과제에서 에이전트 시스템이 어..

LLM 에이전트는 어떻게 실제 업무와 탐색 문제를 다루는가: 최신 논문 4편으로 보는 접근법

# LLM 에이전트는 어떻게 실제 업무와 탐색 문제를 다루는가: 최신 논문 4편으로 보는 접근법이번 글에서는 2026년 4월 arXiv에 공개된 네 편의 논문을 묶어 살펴본다. "Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement"는 대규모 클라우드 서비스의 온콜 지원 업무를 다루고, "OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling"은 embodied task에서의 세계 모델링과 계획 문제를 다룬다. "LLMs for Text-B..

AWS AgentCore: Runtime, Memory, Gateway 관계로 이해하기

AWS에서 이 기능을 부르는 정확한 이름은 Amazon Bedrock AgentCore입니다. 공식 문서 기준으로 AgentCore는 단일 서비스라기보다, 에이전트를 실행하고(Runtime), 기억을 관리하고(Memory), 외부 도구에 연결하고(Gateway), 인증·권한·관측까지 운영하는 여러 관리형 구성요소를 묶은 플랫폼에 가깝습니다. 그래서 AgentCore를 볼 때는 “에이전트 한 개를 만드는 기능”보다, 에이전트를 운영 환경에 올리기 위한 기반 계층으로 이해하는 편이 더 정확합니다.AgentCore를 한 줄로 보면 무엇인가Amazon Bedrock AgentCore는 다양한 오픈소스 프레임워크와 여러 파운데이션 모델 위에서 동작할 수 있도록 설계된 모듈형 에이전트 운영 플랫폼입니다. 공식 문서..

LLM 에이전트의 한계와 보완: 최근 논문 4편으로 보는 평가·기억·추론·협업

# LLM 에이전트의 한계와 보완: 최근 논문 4편으로 보는 평가·기억·추론·협업2026년 4월 arXiv에는 LLM 에이전트의 약점을 서로 다른 각도에서 다루는 논문들이 함께 올라왔다. 기업 의사결정에서 근거와 감사 가능성을 확보하려는 연구, 단발성 과제 수행을 넘어 스스로 진화하는 에이전트를 평가하려는 연구, 고객 서비스 환경에서 SOP 준수와 다양한 사용자 행동을 반영하려는 벤치마크, 그리고 도구를 사용하는 추론에서 경험 활용을 높이려는 학습 방식이 그것이다. 서로 주제는 다르지만, 공통적으로는 “그럴듯하게 답하는 것”만으로는 실제 환경의 요구를 충족하기 어렵다는 문제의식 위에 서 있다. [S1] [S6] [S8] [S10]소개: 어떤 논문들인가이번에 묶어 볼 논문은 네 편이다. 첫째, "From ..

LLM이 불분명한 지시에서 도구를 더 잘 고르게 만드는 방법: Tool Retrieval Bridge

# LLM이 불분명한 지시에서 도구를 더 잘 고르게 만드는 방법: Tool Retrieval BridgeTool Retrieval Bridge는 대규모 언어 모델이 많은 도구 가운데 적절한 도구를 찾는 과정, 즉 도구 검색(tool retrieval)을 현실적인 사용자 요청에 더 가깝게 다루려는 논문이다. 이 논문은 도구 학습이 실제 문제 해결의 한 방식으로 주목받는 가운데, 도구 수가 많고 업데이트도 불규칙한 환경에서는 필요한 도구 집합을 먼저 잘 검색하는 일이 중요하다고 짚는다. 특히 기존 연구가 주로 API 이름이나 파라미터가 자세히 적힌 학술 벤치마크를 바탕으로 평가된 반면, 실제 요청은 훨씬 더 모호하다는 점에서 출발한다. [S11]논문 소개: Tool Retrieval Bridge는 무엇인가논..

반응형