2026/04 25

LLM 에이전트의 계획·추론을 더 안정적으로 만드는 최근 논문 3편

# LLM 에이전트의 계획·추론을 더 안정적으로 만드는 최근 논문 3편2026년 4월 arXiv에는 LLM 에이전트의 계획과 추론을 더 안정적으로 다루려는 논문들이 연이어 공개됐다. Analytica는 복잡한 분석을 더 구조화된 방식으로 다루려는 아키텍처를 제안하고, From Coarse to Fine은 작업 난도에 따라 계획의 세분화를 조절하는 계층적 계획을 다룬다. CAP-CoT는 장문·다단계 문제에서 흔들리기 쉬운 Chain-of-Thought 추론을 반복적이고 대조적인 수정 방식으로 보완하려는 접근이다. 세 논문은 서로 다른 문제를 다루지만, 복잡한 작업에서 LLM이 한 번에 모든 것을 처리하려 할 때 생기는 불안정성을 줄이려는 공통된 흐름을 보여준다. [S5] [S9] [S11]intro: 논문..

LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT

# LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT최근 LLM 기반 에이전트는 동적이고 다단계인 작업을 수행하는 방향으로 확장되고 있지만, 계획의 단위가 작업 난이도와 맞지 않거나 긴 추론 과정이 실행마다 흔들리는 문제가 함께 드러나고 있다. arXiv에 공개된 "From Coarse to Fine: Self-Adaptive Hierarchical Planning for LLM Agents"는 고정된 계획 granularity의 한계를 다루고, "CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning"는 긴 다단계 문제에서 CoT 추론이 불안정해지는 문제를 다룬다..

LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들

# LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들이번 글은 LLM의 반복적 자기수정, 출력 평가, 프롬프트 민감성, 그리고 실제 적용에서의 신뢰성 문제를 함께 다룬 네 편의 논문을 묶어 소개한다. "When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention"은 반복적 자기수정이 언제 도움이 되고 언제 해가 될 수 있는지를 다루고, "Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity"는 수학 추론 평가를 단순한 기호 비교만으로 처리하는..

AI 에이전트와 데이터 활용: 워크플로우 통합과 실전 적용 사례

# AI 에이전트와 데이터 활용: 워크플로우 통합과 실전 적용 사례오늘은 생성형 AI 보조 코딩이 경쟁형 프로젝트에서 어떻게 쓰였는지, 그리고 MCP를 통해 워크포스 AI 에이전트가 업무 워크스페이스와 어떻게 연결되는지 살펴봅니다. 두 사례를 함께 보면 AI 에이전트가 문제 해결과 업무 실행에 들어가는 방식의 차이를 비교해 볼 수 있습니다. [S1][S2] [S1] [S2]오늘의 AI 뉴스 한눈에 보기오늘 다룰 뉴스는 두 가지입니다. 하나는 NVIDIA Technical Blog의 Kaggle 경쟁 사례로, LLM 에이전트가 코드 생성과 실험 반복에 활용된 이야기입니다. 다른 하나는 AWS와 Visier가 소개한 사례로, Model Context Protocol(MCP)을 통해 워크포스 AI 에이전트를 ..

오늘의 AI 뉴스 2026.04.26

LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가

# LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가이번 글은 arXiv에 공개된 논문 "Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks"를 간단히 살펴본다. 이 논문은 장기 상호작용 환경을 LLM 에이전트의 기술 사용 능력을 평가하는 시험대로 보고, 다단계 추론과 여러 기술의 연쇄적 사용, 그리고 지연된 보상과 부분 관측 아래에서의 안정적인 의사결정을 함께 다루려는 문제를 제시한다. 특히 게임 같은 환경이 이런 능력을 평가하는 데 적절한 장이라는 점도 함께 설명한다. [S1]논문 소개: 무엇을 다루는가"Co-Evolving LLM Decision and Skill Bank Agents for Long-Hori..

LLM 에이전트의 도구 선택과 해석 가능성: 최근 논문 3편으로 보는 핵심 아이디어

# LLM 에이전트의 도구 선택과 해석 가능성: 최근 논문 3편으로 보는 핵심 아이디어최근 LLM 에이전트 연구는 단순히 답을 잘 만드는 문제를 넘어, 여러 도구 중 무엇을 선택하고 어떤 순서로 실행할지, 또 그 판단을 어떻게 설명할지를 함께 다루기 시작했다. 이번 글에서 보는 네 편의 논문은 서로 초점이 다르지만 공통적으로 선택 오류와 설명 불투명성이라는 문제를 겨냥한다. S1의 「Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks」는 규제가 강한 AML 경보 분류 맥락에서 증거 기반 설명과 반사실 점검을 제안한다. S3의 「From Actions to Understanding: Conformal Interpret..

LLM 에이전트는 왜 과학적으로 추론하지 못할까? 최신 논문 3편으로 보는 한계와 대응

# LLM 에이전트는 왜 과학적으로 추론하지 못할까? 최신 논문 3편으로 보는 한계와 대응최근 공개된 몇 편의 연구는 LLM 기반 에이전트가 실제 작업에서 왜 쉽게 흔들리는지를 서로 다른 각도에서 다룬다. 2026년 4월 arXiv에 올라온 「AI scientists produce results without reasoning scientifically」는 과학 연구를 수행하는 LLM 기반 시스템이 과학적 탐구를 가능하게 하는 인식론적 규범을 얼마나 따르는지 점검한다. 같은 시기 발표된 「ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System」는 RLHF 기반 정렬에서 보상 모델이 안전성을 제대로 벌점화하지 못할 때 생기는 구조적..

LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문

# LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문이번 글은 arXiv에 공개된 포지션 페이퍼 「LLM Reasoning Is Latent, Not the Chain of Thought」를 바탕으로, LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장 자체로 볼 것인지, 아니면 그 아래에서 형성되는 내부 상태의 변화 과정으로 볼 것인지라는 질문을 정리한다. 이 논문은 LLM 추론의 핵심 대상을 무엇으로 보느냐에 따라 faithfulness, interpretability, reasoning benchmark, inference-time intervention에 대한 논의가 달라진다고 주장한다. [S4] [S4]논문 소개: 무엇을 다루는가논문 제목은 「LLM Reas..

LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안

# LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안이번 글에서 다루는 논문은 2026년 4월 arXiv에 공개된 position paper, 「LLM Reasoning Is Latent, Not the Chain of Thought」입니다. 이 글은 LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장으로 볼 것이 아니라, 모델 내부에서 형성되는 latent-state trajectory, 즉 잠재 상태의 변화 과정으로 보아야 한다고 제안합니다. 논문은 이 문제 설정이 단순한 표현 차이가 아니라, 무엇을 추론의 본체로 볼지에 따라 faithfulness, interpretability, reasoning benchmarks, inference-time ..

LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기

# LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기최근 arXiv에는 LLM 에이전트의 성능 자체보다, 실제 운영에서 드러나는 신뢰성과 실행 문제를 더 직접적으로 다루는 논문들이 이어지고 있습니다. 이번 글에서 살펴볼 세 편은 각각 수치적 불안정성에 따른 예측 불가능성, 장기 웹 작업에서의 스킬 학습 문제, 그리고 멀티스텝 작업 중 나타나는 추론 저하를 다룹니다. 논문 제목은 "Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models", "WebXSkill: Skill Learning for Autonomous Web Agents", "The cognit..

반응형