Arxiv 10

LLM 에이전트 평가를 다시 묻다: AgentAtlas가 제안하는 새로운 기준

# LLM 에이전트 평가를 다시 묻다: AgentAtlas가 제안하는 새로운 기준AgentAtlas: Beyond Outcome Leaderboards for LLM Agents는 2026년 5월 arXiv에 공개된 논문으로, LLM 에이전트 평가가 더 이상 단일 정확도나 최종 성공률만으로는 충분하지 않다는 문제의식에서 출발한다. 이 논문은 코드베이스, 브라우저, 운영체제, 캘린더, 파일, 각종 도구 생태계처럼 실제 에이전트가 작동하는 환경이 넓어지는 상황에서, 평가 기준 역시 더 입체적으로 바뀌어야 한다고 본다. [S4] [S4]intro: AgentAtlas는 무엇이며 언제 나온 논문인가AgentAtlas는 LLM 에이전트 평가를 다루는 arXiv 논문으로, 2026년 5월 공개되었다. 논문이 주목하..

LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점

# LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점이번 글은 arXiv에 공개된 "Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance"를 바탕으로, LLM 성능을 이해할 때 왜 모델만이 아니라 데이터 자체를 더 정교하게 들여다봐야 하는지를 정리한다. 이 논문은 학습, 튜닝, 정렬, 인컨텍스트 학습 등 LLM 워크플로의 여러 단계에서 어떤 데이터가 왜 유용한지에 대한 이해가 아직 충분하지 않다는 문제의식에서 출발한다. [S1] [S1]논문 소개: 무엇을, 언제, 누가 제안했나이 논문은 "Position: Let's Develop Data Probes to Fu..

LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것

# LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것CreativityBench는 arXiv에 발표된 논문 「CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing」에서 제안된 벤치마크다. 이 연구는 최근 LLM이 추론과 환경 상호작용 과제에서 강한 모습을 보였지만, 창의적 문제 해결 능력은 아직 충분히 탐구되지 않았다는 문제의식에서 출발하며, 특히 에이전트의 창의적 추론을 평가하려는 첫 단계로 CreativityBench를 소개한다. [S1] [S1]intro: CreativityBench는 무엇인가CreativityBench는 LLM 기반 에이전트가 얼마..

LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT

# LLM 에이전트의 계획과 추론을 더 안정적으로 만드는 두 가지 접근: 계층적 계획과 CAP-CoT최근 LLM 기반 에이전트는 동적이고 다단계인 작업을 수행하는 방향으로 확장되고 있지만, 계획의 단위가 작업 난이도와 맞지 않거나 긴 추론 과정이 실행마다 흔들리는 문제가 함께 드러나고 있다. arXiv에 공개된 "From Coarse to Fine: Self-Adaptive Hierarchical Planning for LLM Agents"는 고정된 계획 granularity의 한계를 다루고, "CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning"는 긴 다단계 문제에서 CoT 추론이 불안정해지는 문제를 다룬다..

LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가

# LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가이번 글은 arXiv에 공개된 논문 "Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks"를 간단히 살펴본다. 이 논문은 장기 상호작용 환경을 LLM 에이전트의 기술 사용 능력을 평가하는 시험대로 보고, 다단계 추론과 여러 기술의 연쇄적 사용, 그리고 지연된 보상과 부분 관측 아래에서의 안정적인 의사결정을 함께 다루려는 문제를 제시한다. 특히 게임 같은 환경이 이런 능력을 평가하는 데 적절한 장이라는 점도 함께 설명한다. [S1]논문 소개: 무엇을 다루는가"Co-Evolving LLM Decision and Skill Bank Agents for Long-Hori..

LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기

# LLM 에이전트의 불안정성, 웹 작업 학습, 그리고 이유 있는 한계: 최근 논문 3편 살펴보기최근 arXiv에는 LLM 에이전트의 성능 자체보다, 실제 운영에서 드러나는 신뢰성과 실행 문제를 더 직접적으로 다루는 논문들이 이어지고 있습니다. 이번 글에서 살펴볼 세 편은 각각 수치적 불안정성에 따른 예측 불가능성, 장기 웹 작업에서의 스킬 학습 문제, 그리고 멀티스텝 작업 중 나타나는 추론 저하를 다룹니다. 논문 제목은 "Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models", "WebXSkill: Skill Learning for Autonomous Web Agents", "The cognit..

LLM 환각을 내부 표현만으로 잡아내는 방법: Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

# LLM 환각을 내부 표현만으로 잡아내는 방법: Weakly Supervised Distillation of Hallucination Signals into Transformer RepresentationsWeakly Supervised Distillation of Hallucination Signals into Transformer Representations는 LLM의 환각을 추론 시 외부 검증 없이도 잡아낼 수 있는지 묻는 논문이다. 출처는 arXiv의 cs.AI 업데이트로 보이며, 요약에는 기존 환각 탐지 방법이 골드 답안, 검색 시스템, 보조 판정 모델 같은 외부 자원에 의존해 왔다는 문제의식과, 이런 외부 감독 신호를 학습 단계에서 모델 내부 표현으로 옮겨 담을 수 있는지에 대한 질문이 제시..

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations: LLM 환각 탐지를 내부 표현으로 옮기는 방법

# Weakly Supervised Distillation of Hallucination Signals into Transformer Representations: LLM 환각 탐지를 내부 표현으로 옮기는 방법Weakly Supervised Distillation of Hallucination Signals into Transformer Representations는 LLM의 환각 탐지 문제를 다루는 논문이다. 이 논문은 arXiv의 cs.AI 업데이트에 공개되었으며, 기존 환각 탐지가 추론 시 외부 검증에 기대는 경우가 많다는 문제를 배경으로 삼는다. 논문의 질문은 외부 감독 신호를 학습 단계에서 모델 내부 표현으로 옮겨, 추론 시에는 내부 활성만으로 환각을 탐지할 수 있는가에 가깝다. [S2] [S2..

AI 에이전트 오케스트레이션을 위한 범용 운영체제: Qualixar OS

# AI 에이전트 오케스트레이션을 위한 범용 운영체제: Qualixar OS최근 공개된 자료들은 AI 에이전트를 여러 작업에 연결하고 조율하는 방식에 관심이 커지고 있음을 보여줍니다. 이번 글에서는 OpenAI의 관련 공지와 함께, arXiv에 올라온 세 편의 논문을 바탕으로 에이전트 오케스트레이션을 둘러싼 흐름을 정리합니다.핵심 아이디어이번 주제의 중심은 여러 AI 에이전트를 하나의 작업 흐름 안에서 어떻게 연결하고 관리할 것인가입니다. OpenAI는 CyberAgent 관련 글과 함께, 사용자가 에이전트 기반 기능을 체험할 수 있는 ‘Full Fan Mode Contest’ 약관을 공개했고, 이는 에이전트 활용 사례를 실험 단계에서 더 넓게 다루고 있음을 보여줍니다. 또한 arXiv에 올라온 2604..

오늘의 AI 뉴스 2026.04.11

OpenAI의 Child Safety Blueprint와 최근 AI 논문들: 안전, 추론, 의료, 최적화의 흐름

OpenAI Child Safety Blueprint와 4월 8일 AI 연구 흐름: 안전·추론·의료·최적화하루치 AI 업데이트를 한 문장으로 요약하면, 모델 성능 자체보다 "현장에서 더 안전하고 더 검증 가능하게 쓰는 방법"이 더 중요해지고 있다는 쪽에 가깝다. OpenAI의 Child Safety Blueprint는 서비스 운영 관점의 안전 설계를 강조했고, 같은 날 공개된 논문들은 추론 신뢰성, 의료 입력 확장, 최적화 절차 같은 서로 다른 축에서 실제 사용 가능성을 넓히려는 흐름을 보여줬다. [S1][S2][S3][S4]안전 문서가 말하는 것: 모델보다 운영 설계OpenAI의 Child Safety Blueprint는 아동·청소년 보호를 AI 정책의 별도 운영 축으로 다룬다는 점에서 의미가 있다. ..

오늘의 AI 뉴스 2026.04.11
반응형