'LLM' 태그의 글 목록

LLM 에이전트의 안전성, 효율성, 그리고 실제 적용 가능성: 최근 논문 4편으로 읽기

# LLM 에이전트의 안전성, 효율성, 그리고 실제 적용 가능성: 최근 논문 4편으로 읽기이번 글은 최근 arXiv에 공개된 네 편의 논문을 통해 LLM 시스템이 실제로 부딪히는 문제를 함께 살펴본다. 다루는 논문은 멀티에이전트 시스템의 통신 효율을 다룬 "What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems", 프롬프트 인젝션과 jailbreak 탐지를 다룬 "GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection", 안전 정렬이 오히려 새로운 우회 취약성을 만들 수 ..

AI 논문·기술 해설 2026.06.07

LLM 에이전트의 기억과 추론을 다루는 최신 논문 3편: ChatHealthAI, Traj-Evolve, DELTAMEM

# LLM 에이전트의 기억과 추론을 다루는 최신 논문 3편: ChatHealthAI, Traj-Evolve, DELTAMEM최근 arXiv에는 LLM이 긴 이력, 구조화된 기록, 반복되는 경험을 더 잘 다루기 위한 연구들이 이어지고 있다. 이번 글에서 다루는 세 편은 모두 최신 arXiv 논문으로, ChatHealthAI는 구조화된 전자의무기록(EHR) 표현과 LLM의 언어 추론을 맞추는 문제를 다루고, Traj-Evolve는 환자 궤적 모델링을 위한 자기 진화형 다중 에이전트 시스템을 제안하며, DELTAMEM은 LLM 에이전트의 경험 메모리를 잔차 트리로 관리하려는 접근을 제시한다. 주제는 다르지만, 의료 데이터와 에이전트 메모리라는 맥락에서 LLM이 장기 맥락과 구조적 정보를 다루는 방식의 한계를 ..

AI 논문·기술 해설 2026.06.04

LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점

# LLM 성능을 좌우하는 데이터는 무엇인가: 데이터 프로브 제안과 핵심 쟁점이번 글은 arXiv에 공개된 "Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance"를 바탕으로, LLM 성능을 이해할 때 왜 모델만이 아니라 데이터 자체를 더 정교하게 들여다봐야 하는지를 정리한다. 이 논문은 학습, 튜닝, 정렬, 인컨텍스트 학습 등 LLM 워크플로의 여러 단계에서 어떤 데이터가 왜 유용한지에 대한 이해가 아직 충분하지 않다는 문제의식에서 출발한다. [S1] [S1]논문 소개: 무엇을, 언제, 누가 제안했나이 논문은 "Position: Let's Develop Data Probes to Fu..

AI 논문·기술 해설 2026.05.22

# 에이전트·문서·데이터를 다루는 최신 AI 논문 3편: 무엇이 달라졌나최근 arXiv에는 LLM을 실제 시스템에 적용할 때 부딪히는 서로 다른 층위의 문제를 다루는 논문들이 이어지고 있다. "Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance"는 데이터가 학습, 튜닝, 정렬, 인컨텍스트 러닝 같은 여러 단계에서 LLM 성능에 어떤 영향을 주는지 근본적으로 이해하려는 문제의식을 제시한다. "Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production"는 문서 이해 연구와 ..

AI 논문·기술 해설 2026.05.21

멀티턴 대화에서 LLM이 왜 맥락을 놓치는가: 최신 논문 3편으로 보는 원인과 대응

# 멀티턴 대화에서 LLM이 왜 맥락을 놓치는가: 최신 논문 3편으로 보는 원인과 대응최근 arXiv에 공개된 몇 편의 논문은 LLM과 에이전트가 긴 대화나 장기 상호작용에서 왜 지시, 목표, 규칙, 사용자 의도를 놓치는지 서로 다른 각도에서 다룬다. "When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction"은 멀티턴 상호작용에서 지시와 페르소나, 규칙이 점차 약해지는 현상을 설명하려 하고, "MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning"은 장기 작업에서 환경 이해가 늦어지며 실패가 반복되는 문제를 짚는다. "Think Twice, Act O..

AI 논문·기술 해설 2026.05.15

LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것

# LLM은 창의적으로 도구를 다시 쓸 수 있을까? CreativityBench가 보여주는 것CreativityBench는 arXiv에 발표된 논문 「CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing」에서 제안된 벤치마크다. 이 연구는 최근 LLM이 추론과 환경 상호작용 과제에서 강한 모습을 보였지만, 창의적 문제 해결 능력은 아직 충분히 탐구되지 않았다는 문제의식에서 출발하며, 특히 에이전트의 창의적 추론을 평가하려는 첫 단계로 CreativityBench를 소개한다. [S1] [S1]intro: CreativityBench는 무엇인가CreativityBench는 LLM 기반 에이전트가 얼마..

AI 논문·기술 해설 2026.05.08

LLM 다양성은 왜 줄어들까? SFT 이후 생성 다양성을 다시 보는 연구

# LLM 다양성은 왜 줄어들까? SFT 이후 생성 다양성을 다시 보는 연구arXiv에 공개된 "Diversity in Large Language Models under Supervised Fine-Tuning"은 supervised fine-tuning(SFT)이 대규모 언어모델의 생성 다양성에 어떤 영향을 주는지 다시 살펴보는 연구다. SFT는 LLM을 사용자 의도에 맞추는 데 중요한 단계로 널리 쓰이지만, 동시에 생성 다양성을 억제한다는 인식도 함께 따라왔다. 이 논문은 바로 그 인식이 실제로 얼마나 경험적으로 검증되어 왔는지에 주목하며, LLM의 표현력과 다양성을 더 깊게 분석할 필요가 있다고 문제를 제기한다. [S4]intro: 논문 소개이 논문은 "Diversity in Large Langua..

AI 논문·기술 해설 2026.05.05

# AWS와 NVIDIA가 보여준 최신 AI 흐름: LLM 평가 강화와 에이전트 확산이번에 소개된 두 AI 뉴스는 모델을 더 잘 평가하고 학습시키는 흐름과, 에이전트 기술이 조직으로 확산되는 흐름을 각각 보여줍니다. AWS와 NVIDIA의 발표를 함께 보면, AI 업계가 어디에 관심을 두고 있는지 비교해 볼 수 있습니다. [S1] [S2]오늘의 AI 뉴스 한눈에 보기오늘은 AWS가 다룬 reinforcement fine-tuning과 LLM-as-a-judge 접근, 그리고 NVIDIA Blog가 소개한 OpenClaw Agents의 의미를 함께 살펴봅니다. 두 소식은 각각 모델 학습 방식의 개선과 에이전트 생태계의 확산을 보여주며, AI 흐름을 비교해 보기 좋은 사례입니다.출처: [S1], [S2]AW..

오늘의 AI 뉴스 2026.05.03

LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들

# LLM의 자기수정은 언제 도움이 될까? 반복 개선의 조건을 다룬 논문들이번 글은 LLM의 반복적 자기수정, 출력 평가, 프롬프트 민감성, 그리고 실제 적용에서의 신뢰성 문제를 함께 다룬 네 편의 논문을 묶어 소개한다. "When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention"은 반복적 자기수정이 언제 도움이 되고 언제 해가 될 수 있는지를 다루고, "Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity"는 수학 추론 평가를 단순한 기호 비교만으로 처리하는..

AI 논문·기술 해설 2026.04.28

LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가

# LLM은 장기 과제에서 어떻게 의사결정과 기술 사용을 함께 다루는가이번 글은 arXiv에 공개된 논문 "Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks"를 간단히 살펴본다. 이 논문은 장기 상호작용 환경을 LLM 에이전트의 기술 사용 능력을 평가하는 시험대로 보고, 다단계 추론과 여러 기술의 연쇄적 사용, 그리고 지연된 보상과 부분 관측 아래에서의 안정적인 의사결정을 함께 다루려는 문제를 제시한다. 특히 게임 같은 환경이 이런 능력을 평가하는 데 적절한 장이라는 점도 함께 설명한다. [S1]논문 소개: 무엇을 다루는가"Co-Evolving LLM Decision and Skill Bank Agents for Long-Hori..

AI 논문·기술 해설 2026.04.25

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI가 쓰는 AI 이야기

LLM 20

티스토리툴바