Context (C): LLM 기반 Multi-Agent System(MAS)은 복수의 LLM 에이전트를 조율해 시스템 수준의 추론 능력을 확보하는 방향으로 발전해 왔다. 그러나 기존 MAS는 모든 에이전트 간 통신과 사고를 자연어(discrete token) 로 중개하기 때문에 표현력 손실, 반복 디코딩 비용, 추론 latency 증가 문제가 따른다.
Issue (I): Text-mediated 협업은 (1) hidden state가 token으로 양자화되며 정보가 손실되고, (2) agent 수가 늘어날수록 출력 토큰 수가 선형~다항으로 증가하며, (3) 자연어 프롬프트 파싱/재구성 과정에서 컨텍스트가 오염될 수 있다는 구조적 병목을 가진다.
Solution (S): 저자들은 LatentMAS를 제안한다. 각 에이전트는 마지막 층의 hidden embedding을 그대로 다음 스텝 입력으로 사용하는 auto-regressive latent thought 생성을 수행하고, 여러 에이전트가 공유하는 Shared Latent Working Memory에 내부 표현을 무손실로 적재·전달한다. 추가 학습 없이 기존 LLM 가중치를 그대로 사용하는 end-to-end training-free 방식이다.
Evaluation (E): 수학·과학 추론, 상식 이해, 코드 생성 전반에 걸친 9개 벤치마크에서 single-model 및 text-based MAS baseline 대비 성능·효율을 평가한다.
Limitations (L): Hidden state 단위 공유는 동일 계열 혹은 호환 가능한 아키텍처를 전제로 하며, heterogeneous 모델 간 latent 정합성, 해석 가능성(interpretability), 안전성 감사(auditability) 측면에서 자연어 교환 대비 불리할 수 있다.
Questions (Q): Latent 상호작용이 실패했을 때 원인 추적은 어떻게 하는가? 다른 tokenizer/아키텍처를 가진 에이전트 간에도 latent bridge를 학습 없이 구성할 수 있는가? Safety/alignment 관점에서 latent 채널을 어떻게 감시할 것인가?
섹션별 요약
Introduction
단일 LLM의 추론 한계를 극복하기 위해 역할 분화된 여러 LLM이 협력하는 MAS 패러다임이 부상하고 있으나, 협업이 전부 텍스트 기반으로 이루어져 효율과 표현력 측면 손실이 크다.
저자는 “에이전트가 굳이 자연어로 대화할 필요가 있는가?”라는 질문을 던지고, 연속 latent 공간에서 직접 협업하는 새로운 MAS 설계를 제안한다.
Methods
Auto-regressive latent thought generation: 각 에이전트는 토큰을 sampling하는 대신 last-layer hidden state를 그대로 다음 step의 입력 임베딩으로 되먹인다. 즉 이산 토큰 경로를 우회하여 연속 latent chain-of-thought를 생성한다.
Shared Latent Working Memory: 에이전트별 hidden 표현을 키/값으로 축적해 이후 에이전트가 attention 등으로 조회한다. 텍스트 요약 없이 원 표현이 이전·유지되므로 정보 손실이 없다.
Training-free: 모든 에이전트는 사전학습된 LLM을 그대로 사용한다. 추가 파라미터나 SFT/RL 없이 추론 시점 파이프라인 변경만으로 동작한다.
Results (with table)
축
결과
정확도
강한 baseline 대비 최대 +14.6%p 향상
출력 토큰
baseline 대비 70.8%–83.7% 감소
End-to-end latency
4×–4.3× 가속
벤치마크 수
9개 (수학/과학 추론, 상식, 코드 생성)
학습 비용
0 (training-free)
Discussion
이산 토큰 병목을 제거한 결과, 정확도와 효율이 동시에 개선되는 “no free lunch 예외”가 관찰된다. 이는 자연어 중개가 MAS의 구조적 오버헤드였음을 시사한다.
저자는 이론 분석으로 LatentMAS가 text-based MAS 대비 (1) 더 높은 표현력(expressiveness), (2) 정보 손실 없는 전달(lossless), (3) 낮은 복잡도를 가진다고 논증한다.
Insights
Agent 협업의 본질은 “자연어 프로토콜”이 아니라 “내부 표현의 공유”이다. 사람이 읽을 필요가 없다면 latent 공유가 우월하다.
공유 working memory를 외부 자료구조로 분리함으로써, 개별 에이전트의 자기회귀 흐름을 유지하면서도 상호참조가 가능하다.
Discussion Points
Latent 채널은 감시/감사 어려움이 크므로 safety 측면 연구가 병행되어야 한다.
Tokenizer·아키텍처가 다른 모델을 섞을 때의 latent 정합성 문제, heterogeneous MAS로의 확장 가능성 등이 후속 연구 과제이다.
메타데이터
항목
값
Title
Latent Collaboration in Multi-Agent Systems
First Author
Jiaru Zou
Co-authors
Xiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang
LLM 에이전트 시대의 두 가지 현실적 제약에서 출발한다. 첫째, 실제 서비스에서 MAS의 추론 latency와 토큰 비용은 상용 배포의 가장 큰 장벽이며, 특히 3개 이상 에이전트가 다회차로 상호작용할 때 비용이 폭증한다. 둘째, 자연어 프롬프트는 사람이 읽기 좋은 형태일 뿐 모델 내부 표현에 비해 정보 밀도가 낮다. 모델 간 통신까지 사람이 읽을 필요가 없다면, 텍스트 레이어를 거치지 않는 것이 정보이론적으로도 공학적으로도 이득이라는 통찰이 본 연구의 출발점이다. 따라서 저자들은 학습 없이도 곧바로 적용 가능한 latent 협업 파이프라인을 설계해, 성능과 효율을 동시에 확보하는 실용적 대안을 제시하고자 한다.
방법 (Method)
flowchart LR
Q[입력 질의] --> A1[에이전트 1<br/>latent thought<br/>auto-regression]
A1 -- last-layer hidden --> SM[(Shared Latent<br/>Working Memory)]
SM --> A2[에이전트 2<br/>latent reasoning]
A2 -- hidden --> SM
SM --> A3[에이전트 N<br/>검증/종합]
A3 --> DEC[최종 디코딩<br/>텍스트 출력]
입력 질의는 first agent에 임베딩으로 주입된다.
각 agent는 token sampling 없이 last-layer hidden을 곧바로 다음 step의 입력 임베딩으로 재귀적으로 사용해 latent chain-of-thought를 전개한다.
생성된 hidden 시퀀스는 공유 working memory에 기록되고, 후속 agent들은 attention/retrieval로 이를 조회해 협업 컨텍스트로 삼는다.
최종 답변 단계에서만 마지막 agent가 실제 토큰을 decoding한다. 즉 텍스트는 사용자와의 접점에서만 등장한다.
발견
#
발견
수치/근거
F1
Latent 협업이 text-based MAS 대비 정확도를 향상
9개 벤치마크에서 최대 +14.6%p
F2
출력 토큰 수가 크게 감소
70.8%–83.7% 감소
F3
End-to-end 추론 가속
4×–4.3× 속도 향상
F4
추가 학습 불필요
training-free, 기존 LLM 가중치 그대로 사용
F5
이론적으로 text-based MAS 대비 표현력 우위 및 정보 무손실성
저자 정식 증명 제공
이론적 의의
MAS 설계 공간을 “프롬프트 엔지니어링” 중심에서 “latent 프로토콜” 중심으로 확장한다.
이산 토큰 병목이 MAS의 근본적 비효율 원인임을 이론·실증으로 동시에 뒷받침한다.
Latent CoT(Coconut, Quiet-STaR 계열)의 단일 모델 접근을 다중 에이전트로 자연스럽게 일반화하는 교두보를 제공한다.
공유 working memory는 외재화된 인지(cognitive artifact)로서 에이전트 간 협업의 표준화된 인터페이스가 될 수 있음을 시사한다.
재현성 및 신뢰도 평가
항목
평가
근거
코드 공개
A
GitHub Gen-Verse/LatentMAS 전면 공개
데이터 공개
A
공개 벤치마크(수학/과학/상식/코드) 사용
학습 비용
A
training-free, GPU 학습 불필요
실험 범위
B
9개 벤치마크로 비교적 폭넓음, 다만 다양한 모델 패밀리 간 heterogeneous 실험은 제한적
이론적 엄밀성
B
expressiveness/lossless 주장 증명 제공, 가정의 일반성은 추가 검토 필요
안전성/해석가능성
C
latent 채널의 감시·감사 방법 부재
종합 Evidence Quality
B
일관된 개선이지만 seed/모델별 분산, ablation 상세도는 본문 확인 필요
종합 Reproducibility
A
코드+공개 벤치마크+학습 불요로 재현 난이도 낮음
관련 연구
Chain-of-Thought & Latent Reasoning: Coconut(Meta) 등 토큰 대신 hidden state로 사고하는 단일 모델 접근.
Multi-Agent LLM Frameworks: AutoGen, MetaGPT, CAMEL 등 자연어 기반 역할 분담 MAS.
Agent Communication in MARL: CommNet, TarMAC 등 연속 벡터 메시지를 학습으로 획득한 기존 MARL 통신 연구와 대비된다(여기서는 training-free).
Externalization Perspective: 메모리/프로토콜 외재화를 통합한 최근 서베이들(e.g., Externalization in LLM Agents, 2026)과 철학적으로 연결된다.
Efficient Inference: Speculative decoding, KV cache sharing과 마찬가지로 “중간 표현 재사용”이라는 동일한 효율 축에 놓인다.
원자적 인사이트
이산 토큰은 MAS의 병목이다. 에이전트 간 통신을 자연어로 강제하는 설계는 정보 손실과 토큰 비용이라는 이중 세금을 부과하며, latent 공유는 두 축을 동시에 줄이는 드문 해법이다.
Working memory의 외재화는 에이전트 간 협업의 표준 인터페이스가 될 수 있다. 개별 agent의 autoregressive 흐름을 유지하면서도 공유 저장소를 통해 무손실 맥락 전달이 가능하며, 이는 인간 인지에서의 외부 메모(노트, 화이트보드)와 구조적으로 대응된다.
Training-free 개선은 배포 관점에서 특히 가치가 크다. 성능 +14.6%p와 4× 가속을 0 training cost로 얻는다는 점은 프로덕션 MAS 파이프라인에서 즉시 적용 가능한 엔지니어링 레버가 된다.
핵심 용어 정리
LatentMAS: 본 논문이 제안하는 training-free latent 협업 MAS 프레임워크.
Latent Thought: 토큰 샘플링 없이 last-layer hidden을 다음 입력으로 되먹여 생성하는 연속 공간 상의 사고 단위.
Shared Latent Working Memory: 여러 에이전트의 hidden 표현을 축적·조회하는 공유 메모리 모듈.
Training-free MAS: 추가 학습 없이 기존 LLM 가중치만으로 구성되는 다중 에이전트 시스템.
Text-mediated Communication: 에이전트 간 통신을 자연어 프롬프트/응답으로 중개하는 기존 방식.
Lossless Information Exchange: 토큰 양자화로 인한 표현 손실 없이 내부 표현 그대로를 전달하는 통신 특성.