\

분류 전체보기 83

멀티모달 LLM 내부에서 오디오·비주얼 정보는 어떻게 흘러가나

# 멀티모달 LLM 내부에서 오디오·비주얼 정보는 어떻게 흘러가나arXiv에 공개된 논문 「From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs」는 멀티모달 대형언어모델이 듣고 본 정보를 실제로 내부에서 어떻게 전달해 최종 답변에 반영하는지를 다룬다. 오디오와 비주얼 신호가 네트워크 안에서 어떤 경로를 따라 움직이는지에 대한 이해가 아직 충분하지 않다는 문제의식에서 출발한 연구다. [S1]논문 소개: 무엇을 다루는가이 논문은 Audio-Visual Large Language Models, 즉 오디오와 시각 정보를 함께 다루는 멀티모달 LLM 내부를 들여다보는 연구다. 제목 그대로 ..

LLM 에이전트의 기억과 도구 사용을 어떻게 더 안정적으로 만들까

# LLM 에이전트의 기억과 도구 사용을 어떻게 더 안정적으로 만들까최근 arXiv에 공개된 세 편의 논문은 공통적으로 도구를 사용하는 LLM 에이전트의 안정성을 다룬다. "Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents"는 도구를 언제 쓰는 것이 적절한지 설명하는 계약 정보에 주목하고, "MemToolAgent"는 이전 상호작용과 장기 기억을 활용해 도구 사용을 개선하는 방향을 제시한다. "Efficient Skill Grounding via Code Refactoring with Small Language Models"는 환경이나 구현 차이 때문에 기존 스킬이 그대로 작동하지 않는 문제를 코..

LLM 에이전트의 기억과 작업 흐름을 더 잘 다루는 최신 연구 3편

# LLM 에이전트의 기억과 작업 흐름을 더 잘 다루는 최신 연구 3편최근 arXiv에는 LLM 에이전트가 긴 작업을 더 안정적으로 수행하기 위해 무엇이 필요한지를 서로 다른 각도에서 다루는 논문들이 올라오고 있다. Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory, AdMem: Advanced Memory for Task-solving Agents, Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition은 모두 2026년 6월 arXiv에 공개된 연구로, 각각 워크플로 검증, 장기 기억, 스킬 생성이라는 축..

LLM 에이전트의 안전성, 효율성, 그리고 실제 적용 가능성: 최근 논문 4편으로 읽기

# LLM 에이전트의 안전성, 효율성, 그리고 실제 적용 가능성: 최근 논문 4편으로 읽기이번 글은 최근 arXiv에 공개된 네 편의 논문을 통해 LLM 시스템이 실제로 부딪히는 문제를 함께 살펴본다. 다루는 논문은 멀티에이전트 시스템의 통신 효율을 다룬 "What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems", 프롬프트 인젝션과 jailbreak 탐지를 다룬 "GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection", 안전 정렬이 오히려 새로운 우회 취약성을 만들 수 ..

에이전트의 실행 전 검증과 런타임 안전: 최근 arXiv 논문 3편으로 보는 핵심 아이디어

# 에이전트의 실행 전 검증과 런타임 안전: 최근 arXiv 논문 3편으로 보는 핵심 아이디어최근 arXiv에는 AI 에이전트를 실제 환경에 배포하기 전 무엇을 검증해야 하는지, 그리고 실행 중에는 어떤 방식으로 위험을 줄이려 하는지를 다룬 논문들이 이어지고 있다. 이번 글에서는 기업용 AI 에이전트의 배포 전 보증을 다루는 「Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification」, 자율 에이전트의 런타임 안전에서 개입 시점 문제를 다루는 「The Saturation Trap and the Subjectivity of Intervention Timing: Why..

에이전트 안전과 신뢰성: 최근 arXiv 논문 3편으로 보는 배포 전 검증, 개입 타이밍, 그리고 장기 오류 추적

# 에이전트 안전과 신뢰성: 최근 arXiv 논문 3편으로 보는 배포 전 검증, 개입 타이밍, 그리고 장기 오류 추적최근 arXiv에는 AI 에이전트의 신뢰성과 안전성을 서로 다른 층위에서 다루는 논문들이 연이어 공개됐다. 「Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification」은 기업용 AI 에이전트의 배포 전 검증 공백을 다루고, 「The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Intervent..

LLM 에이전트의 기억과 추론을 다루는 최신 논문 3편: ChatHealthAI, Traj-Evolve, DELTAMEM

# LLM 에이전트의 기억과 추론을 다루는 최신 논문 3편: ChatHealthAI, Traj-Evolve, DELTAMEM최근 arXiv에는 LLM이 긴 이력, 구조화된 기록, 반복되는 경험을 더 잘 다루기 위한 연구들이 이어지고 있다. 이번 글에서 다루는 세 편은 모두 최신 arXiv 논문으로, ChatHealthAI는 구조화된 전자의무기록(EHR) 표현과 LLM의 언어 추론을 맞추는 문제를 다루고, Traj-Evolve는 환자 궤적 모델링을 위한 자기 진화형 다중 에이전트 시스템을 제안하며, DELTAMEM은 LLM 에이전트의 경험 메모리를 잔차 트리로 관리하려는 접근을 제시한다. 주제는 다르지만, 의료 데이터와 에이전트 메모리라는 맥락에서 LLM이 장기 맥락과 구조적 정보를 다루는 방식의 한계를 ..

LLM 에이전트는 왜 ‘말한 대로’ 행동하지 않을까: Faithfulness Gap과 관련 연구 3편

# LLM 에이전트는 왜 ‘말한 대로’ 행동하지 않을까: Faithfulness Gap과 관련 연구 3편2026년 6월 arXiv에 올라온 세 편의 논문은 LLM 에이전트의 신뢰성을 서로 다른 각도에서 다룬다. 「Doing What They Say, Not What They Reason: Locating the Faithfulness Gap in LLM Agents」는 에이전트가 말한 추론과 실제 행동이 얼마나 맞는지 묻고, 「TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety」는 긴 작업 궤적에서 안전 관련 증거를 어떻게 놓치지 않을지 다룬다. 「Hidden Thoughts Are Not Secret: Reasoning Trac..

물리 법칙을 지키는 다이어그램 생성과 물리 추론 벤치마크: 무엇이 달라졌나

# 물리 법칙을 지키는 다이어그램 생성과 물리 추론 벤치마크: 무엇이 달라졌나arXiv에 공개된 두 편의 논문은 텍스트와 이미지에서 물리 현상을 다루는 AI의 약점을 서로 다른 방향에서 짚는다. PhyDrawGen은 자연어로부터 물리 다이어그램을 생성할 때 물리 법칙과 기하 제약을 함께 만족시키려는 방법을 제안하고, BilliardPhys-Bench는 이미지 속 상황을 보고 이후의 움직임과 상호작용을 얼마나 잘 추론하는지 평가하기 위한 벤치마크를 제시한다. [S1][S9] [S1] [S9]소개: 논문 이름과 발표 맥락PhyDrawGen은 자연어에서 물리 다이어그램을 생성하는 문제를 다룬 arXiv 논문이다. 이 논문은 텍스트로부터 물리 장면을 그릴 때 단지 보기 그럴듯한 그림이 아니라 물리 법칙을 지키는..

SageMaker AI와 NVIDIA DynoSim으로 보는 LLM 서빙 관측성과 튜닝 포인트

# SageMaker AI와 NVIDIA DynoSim으로 보는 LLM 서빙 관측성과 튜닝 포인트오늘은 LLM 서빙을 운영하는 과정에서 무엇을 관측해야 하는지, 그리고 어떤 설정을 튜닝하려는지에 초점을 맞춘 두 소식을 함께 살펴봅니다. 하나는 Amazon SageMaker AI 엔드포인트의 관측성을, 다른 하나는 NVIDIA DynoSim이 다루는 서빙 튜닝 문제를 정리합니다. [S1] [S2]오늘의 AI 뉴스 한눈에 보기오늘 다룰 두 소식은 모두 LLM 서빙의 운영과 최적화에 맞닿아 있습니다. Amazon SageMaker AI 쪽에서는 엔드포인트의 관측성을 넓히는 접근이 소개됐고, NVIDIA 쪽에서는 LLM 서빙을 튜닝할 때 마주치는 여러 선택의 조합을 다루는 DynoSim이 제시됐습니다. 두 소식..

오늘의 AI 뉴스 2026.06.01
반응형