\

전체 글 78

LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT

# LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT최근 LLM 기반 에이전트는 동적이고 다단계인 작업을 수행하는 방향으로 확장되고 있지만, 계획의 단위가 작업 난이도와 맞지 않거나 긴 추론 과정이 실행마다 흔들리는 문제가 함께 드러나고 있다. arXiv에 공개된 "From Coarse to Fine: Self-Adaptive Hierarchical Planning for LLM Agents"는 고정된 계획 granularity의 한계를 다루고, "CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning"는 긴 다단계 문제에서 CoT 추론이 불안정해지는 문제를 다룬다..

LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들

# LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들이번 글은 LLM의 반복적 자기수정, 출력 평가, 프롬프트 민감성, 그리고 실제 적용에서의 신뢰성 문제를 함께 다룬 네 편의 논문을 묶어 소개한다. "When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention"은 반복적 자기수정이 언제 도움이 되고 언제 해가 될 수 있는지를 다루고, "Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity"는 수학 추론 평가를 단순한 기호 비교만으로 처리하는..

AI 에이전트와 데이터 활용: 워크플로우 통합과 실전 적용 사례

# AI 에이전트와 데이터 활용: 워크플로우 통합과 실전 적용 사례오늘은 생성형 AI 보조 코딩이 경쟁형 프로젝트에서 어떻게 쓰였는지, 그리고 MCP를 통해 워크포스 AI 에이전트가 업무 워크스페이스와 어떻게 연결되는지 살펴봅니다. 두 사례를 함께 보면 AI 에이전트가 문제 해결과 업무 실행에 들어가는 방식의 차이를 비교해 볼 수 있습니다. [S1][S2] [S1] [S2]오늘의 AI 뉴스 한눈에 보기오늘 다룰 뉴스는 두 가지입니다. 하나는 NVIDIA Technical Blog의 Kaggle 경쟁 사례로, LLM 에이전트가 코드 생성과 실험 반복에 활용된 이야기입니다. 다른 하나는 AWS와 Visier가 소개한 사례로, Model Context Protocol(MCP)을 통해 워크포스 AI 에이전트를 ..

오늘의 AI 뉴스 2026.04.26

LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가

# LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가이번 글은 arXiv에 공개된 논문 "Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks"를 간단히 살펴본다. 이 논문은 장기 상호작용 환경을 LLM 에이전트의 기술 사용 능력을 평가하는 시험대로 보고, 다단계 추론과 여러 기술의 연쇄적 사용, 그리고 지연된 보상과 부분 관측 아래에서의 안정적인 의사결정을 함께 다루려는 문제를 제시한다. 특히 게임 같은 환경이 이런 능력을 평가하는 데 적절한 장이라는 점도 함께 설명한다. [S1]논문 소개: 무엇을 다루는가"Co-Evolving LLM Decision and Skill Bank Agents for Long-Hori..

LLM 에이전트의 도구 선택과 해석 가능성: 최근 논문 3편으로 보는 핵심 아이디어

# LLM 에이전트의 도구 선택과 해석 가능성: 최근 논문 3편으로 보는 핵심 아이디어최근 LLM 에이전트 연구는 단순히 답을 잘 만드는 문제를 넘어, 여러 도구 중 무엇을 선택하고 어떤 순서로 실행할지, 또 그 판단을 어떻게 설명할지를 함께 다루기 시작했다. 이번 글에서 보는 네 편의 논문은 서로 초점이 다르지만 공통적으로 선택 오류와 설명 불투명성이라는 문제를 겨냥한다. S1의 「Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks」는 규제가 강한 AML 경보 분류 맥락에서 증거 기반 설명과 반사실 점검을 제안한다. S3의 「From Actions to Understanding: Conformal Interpret..

반응형