\

전체 글 78

LLM 에이전트는 왜 과학적으로 추론하지 못할까? 최신 논문 3편으로 보는 한계와 대응

# LLM 에이전트는 왜 과학적으로 추론하지 못할까? 최신 논문 3편으로 보는 한계와 대응최근 공개된 몇 편의 연구는 LLM 기반 에이전트가 실제 작업에서 왜 쉽게 흔들리는지를 서로 다른 각도에서 다룬다. 2026년 4월 arXiv에 올라온 「AI scientists produce results without reasoning scientifically」는 과학 연구를 수행하는 LLM 기반 시스템이 과학적 탐구를 가능하게 하는 인식론적 규범을 얼마나 따르는지 점검한다. 같은 시기 발표된 「ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System」는 RLHF 기반 정렬에서 보상 모델이 안전성을 제대로 벌점화하지 못할 때 생기는 구조적..

LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문

# LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문이번 글은 arXiv에 공개된 포지션 페이퍼 「LLM Reasoning Is Latent, Not the Chain of Thought」를 바탕으로, LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장 자체로 볼 것인지, 아니면 그 아래에서 형성되는 내부 상태의 변화 과정으로 볼 것인지라는 질문을 정리한다. 이 논문은 LLM 추론의 핵심 대상을 무엇으로 보느냐에 따라 faithfulness, interpretability, reasoning benchmark, inference-time intervention에 대한 논의가 달라진다고 주장한다. [S4] [S4]논문 소개: 무엇을 다루는가논문 제목은 「LLM Reas..

LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안

# LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안이번 글에서 다루는 논문은 2026년 4월 arXiv에 공개된 position paper, 「LLM Reasoning Is Latent, Not the Chain of Thought」입니다. 이 글은 LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장으로 볼 것이 아니라, 모델 내부에서 형성되는 latent-state trajectory, 즉 잠재 상태의 변화 과정으로 보아야 한다고 제안합니다. 논문은 이 문제 설정이 단순한 표현 차이가 아니라, 무엇을 추론의 본체로 볼지에 따라 faithfulness, interpretability, reasoning benchmarks, inference-time ..

LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기

# LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기최근 arXiv에는 LLM 에이전트의 성능 자체보다, 실제 운영에서 드러나는 신뢰성과 실행 문제를 더 직접적으로 다루는 논문들이 이어지고 있습니다. 이번 글에서 살펴볼 세 편은 각각 수치적 불안정성에 따른 예측 불가능성, 장기 웹 작업에서의 스킬 학습 문제, 그리고 멀티스텝 작업 중 나타나는 추론 저하를 다룹니다. 논문 제목은 "Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models", "WebXSkill: Skill Learning for Autonomous Web Agents", "The cognit..

롱호라이즌 에이전트는 왜 무너질까? HORIZON과 관련 논문으로 보는 진단과 대응

# 롱호라이즌 에이전트는 왜 무너질까? HORIZON과 관련 논문으로 보는 진단과 대응arXiv에 공개된 「The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break」는 LLM 에이전트가 짧거나 중간 길이의 작업에서는 강한 성능을 보이지만, 길고 서로 얽힌 단계들을 오래 이어가야 하는 작업에서는 자주 무너진다는 문제를 정면으로 다룬다. 이 논문은 이런 장기 작업 실패가 아직 충분히 정리되지 않았다는 점을 문제의식으로 삼고, 이를 체계적으로 진단하기 위한 교차 도메인 벤치마크 HORIZON을 제안한다. [S1] [S1]논문 소개: HORIZON과 문제의식HORIZON의 출발점은 비교적 분명하다. 오늘날 LLM 에이전트는 짧은 작..

반응형