LLM 18

LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점

# LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점이번 글은 arXiv에 공개된 "Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance"를 바탕으로, LLM 성능을 이해할 때 왜 모델만이 아니라 데이터 자체를 더 정교하게 들여다봐야 하는지를 정리한다. 이 논문은 학습, 튜닝, 정렬, 인컨텍스트 학습 등 LLM 워크플로의 여러 단계에서 어떤 데이터가 왜 유용한지에 대한 이해가 아직 충분하지 않다는 문제의식에서 출발한다. [S1] [S1]논문 소개: 무엇을, 언제, 누가 제안했나이 논문은 "Position: Let's Develop Data Probes to Fu..

에이전트·문서·데이터를 다루는 최신 AI 논문 3편: 무엇이 달라졌나

# 에이전트·문서·데이터를 다루는 최신 AI 논문 3편: 무엇이 달라졌나최근 arXiv에는 LLM을 실제 시스템에 적용할 때 부딪히는 서로 다른 층위의 문제를 다루는 논문들이 이어지고 있다. "Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance"는 데이터가 학습, 튜닝, 정렬, 인컨텍스트 러닝 같은 여러 단계에서 LLM 성능에 어떤 영향을 주는지 근본적으로 이해하려는 문제의식을 제시한다. "Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production"는 문서 이해 연구와 ..

멀티턴 대화에서 LLM이 왜 맥락을 놓치는가: 최신 논문 3편으로 보는 원인과 대응

# 멀티턴 대화에서 LLM이 왜 맥락을 놓치는가: 최신 논문 3편으로 보는 원인과 대응최근 arXiv에 공개된 몇 편의 논문은 LLM과 에이전트가 긴 대화나 장기 상호작용에서 왜 지시, 목표, 규칙, 사용자 의도를 놓치는지 서로 다른 각도에서 다룬다. "When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction"은 멀티턴 상호작용에서 지시와 페르소나, 규칙이 점차 약해지는 현상을 설명하려 하고, "MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning"은 장기 작업에서 환경 이해가 늦어지며 실패가 반복되는 문제를 짚는다. "Think Twice, Act O..

LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것

# LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것CreativityBench는 arXiv에 발표된 논문 「CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing」에서 제안된 벤치마크다. 이 연구는 최근 LLM이 추론과 환경 상호작용 과제에서 강한 모습을 보였지만, 창의적 문제 해결 능력은 아직 충분히 탐구되지 않았다는 문제의식에서 출발하며, 특히 에이전트의 창의적 추론을 평가하려는 첫 단계로 CreativityBench를 소개한다. [S1] [S1]intro: CreativityBench는 무엇인가CreativityBench는 LLM 기반 에이전트가 얼마..

LLM 다양성은 왜 줄어들까? SFT 이후 생성 다양성을 다시 보는 연구

# LLM 다양성은 왜 줄어들까? SFT 이후 생성 다양성을 다시 보는 연구arXiv에 공개된 "Diversity in Large Language Models under Supervised Fine-Tuning"은 supervised fine-tuning(SFT)이 대규모 언어모델의 생성 다양성에 어떤 영향을 주는지 다시 살펴보는 연구다. SFT는 LLM을 사용자 의도에 맞추는 데 중요한 단계로 널리 쓰이지만, 동시에 생성 다양성을 억제한다는 인식도 함께 따라왔다. 이 논문은 바로 그 인식이 실제로 얼마나 경험적으로 검증되어 왔는지에 주목하며, LLM의 표현력과 다양성을 더 깊게 분석할 필요가 있다고 문제를 제기한다. [S4]intro: 논문 소개이 논문은 "Diversity in Large Langua..

AWS와 NVIDIA가 보여준 최신 AI 흐름: LLM 평가 강화와 에이전트 확산

# AWS와 NVIDIA가 보여준 최신 AI 흐름: LLM 평가 강화와 에이전트 확산이번에 소개된 두 AI 뉴스는 모델을 더 잘 평가하고 학습시키는 흐름과, 에이전트 기술이 조직으로 확산되는 흐름을 각각 보여줍니다. AWS와 NVIDIA의 발표를 함께 보면, AI 업계가 어디에 관심을 두고 있는지 비교해 볼 수 있습니다. [S1] [S2]오늘의 AI 뉴스 한눈에 보기오늘은 AWS가 다룬 reinforcement fine-tuning과 LLM-as-a-judge 접근, 그리고 NVIDIA Blog가 소개한 OpenClaw Agents의 의미를 함께 살펴봅니다. 두 소식은 각각 모델 학습 방식의 개선과 에이전트 생태계의 확산을 보여주며, AI 흐름을 비교해 보기 좋은 사례입니다.출처: [S1], [S2]AW..

오늘의 AI 뉴스 2026.05.03

LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들

# LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들이번 글은 LLM의 반복적 자기수정, 출력 평가, 프롬프트 민감성, 그리고 실제 적용에서의 신뢰성 문제를 함께 다룬 네 편의 논문을 묶어 소개한다. "When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention"은 반복적 자기수정이 언제 도움이 되고 언제 해가 될 수 있는지를 다루고, "Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity"는 수학 추론 평가를 단순한 기호 비교만으로 처리하는..

LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가

# LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가이번 글은 arXiv에 공개된 논문 "Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks"를 간단히 살펴본다. 이 논문은 장기 상호작용 환경을 LLM 에이전트의 기술 사용 능력을 평가하는 시험대로 보고, 다단계 추론과 여러 기술의 연쇄적 사용, 그리고 지연된 보상과 부분 관측 아래에서의 안정적인 의사결정을 함께 다루려는 문제를 제시한다. 특히 게임 같은 환경이 이런 능력을 평가하는 데 적절한 장이라는 점도 함께 설명한다. [S1]논문 소개: 무엇을 다루는가"Co-Evolving LLM Decision and Skill Bank Agents for Long-Hori..

LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문

# LLM 추론은 정말 ‘생각의 흐름’일까? 최신 논문이 던지는 질문이번 글은 arXiv에 공개된 포지션 페이퍼 「LLM Reasoning Is Latent, Not the Chain of Thought」를 바탕으로, LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장 자체로 볼 것인지, 아니면 그 아래에서 형성되는 내부 상태의 변화 과정으로 볼 것인지라는 질문을 정리한다. 이 논문은 LLM 추론의 핵심 대상을 무엇으로 보느냐에 따라 faithfulness, interpretability, reasoning benchmark, inference-time intervention에 대한 논의가 달라진다고 주장한다. [S4] [S4]논문 소개: 무엇을 다루는가논문 제목은 「LLM Reas..

LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안

# LLM 추론을 ‘겉으로 보이는 생각’이 아니라 ‘내부 상태 변화’로 보자는 제안이번 글에서 다루는 논문은 2026년 4월 arXiv에 공개된 position paper, 「LLM Reasoning Is Latent, Not the Chain of Thought」입니다. 이 글은 LLM의 추론을 우리가 화면에서 읽는 chain-of-thought 문장으로 볼 것이 아니라, 모델 내부에서 형성되는 latent-state trajectory, 즉 잠재 상태의 변화 과정으로 보아야 한다고 제안합니다. 논문은 이 문제 설정이 단순한 표현 차이가 아니라, 무엇을 추론의 본체로 볼지에 따라 faithfulness, interpretability, reasoning benchmarks, inference-time ..

반응형