# 멀티모달 LLM 내부에서 오디오·비주얼 정보는 어떻게 흘러가나arXiv에 공개된 논문 「From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs」는 멀티모달 대형언어모델이 듣고 본 정보를 실제로 내부에서 어떻게 전달해 최종 답변에 반영하는지를 다룬다. 오디오와 비주얼 신호가 네트워크 안에서 어떤 경로를 따라 움직이는지에 대한 이해가 아직 충분하지 않다는 문제의식에서 출발한 연구다. [S1]논문 소개: 무엇을 다루는가이 논문은 Audio-Visual Large Language Models, 즉 오디오와 시각 정보를 함께 다루는 멀티모달 LLM 내부를 들여다보는 연구다. 제목 그대로 ..