Latent Collaboration in Multi-Agent Systems

Paper Digest (CISELQ)

  • Context (C): LLM 기반 Multi-Agent System(MAS)은 복수의 LLM 에이전트를 조율해 시스템 수준의 추론 능력을 확보하는 방향으로 발전해 왔다. 그러나 기존 MAS는 모든 에이전트 간 통신과 사고를 자연어(discrete token) 로 중개하기 때문에 표현력 손실, 반복 디코딩 비용, 추론 latency 증가 문제가 따른다.
  • Issue (I): Text-mediated 협업은 (1) hidden state가 token으로 양자화되며 정보가 손실되고, (2) agent 수가 늘어날수록 출력 토큰 수가 선형~다항으로 증가하며, (3) 자연어 프롬프트 파싱/재구성 과정에서 컨텍스트가 오염될 수 있다는 구조적 병목을 가진다.
  • Solution (S): 저자들은 LatentMAS를 제안한다. 각 에이전트는 마지막 층의 hidden embedding을 그대로 다음 스텝 입력으로 사용하는 auto-regressive latent thought 생성을 수행하고, 여러 에이전트가 공유하는 Shared Latent Working Memory에 내부 표현을 무손실로 적재·전달한다. 추가 학습 없이 기존 LLM 가중치를 그대로 사용하는 end-to-end training-free 방식이다.
  • Evaluation (E): 수학·과학 추론, 상식 이해, 코드 생성 전반에 걸친 9개 벤치마크에서 single-model 및 text-based MAS baseline 대비 성능·효율을 평가한다.
  • Limitations (L): Hidden state 단위 공유는 동일 계열 혹은 호환 가능한 아키텍처를 전제로 하며, heterogeneous 모델 간 latent 정합성, 해석 가능성(interpretability), 안전성 감사(auditability) 측면에서 자연어 교환 대비 불리할 수 있다.
  • Questions (Q): Latent 상호작용이 실패했을 때 원인 추적은 어떻게 하는가? 다른 tokenizer/아키텍처를 가진 에이전트 간에도 latent bridge를 학습 없이 구성할 수 있는가? Safety/alignment 관점에서 latent 채널을 어떻게 감시할 것인가?

섹션별 요약

Introduction

  • 단일 LLM의 추론 한계를 극복하기 위해 역할 분화된 여러 LLM이 협력하는 MAS 패러다임이 부상하고 있으나, 협업이 전부 텍스트 기반으로 이루어져 효율과 표현력 측면 손실이 크다.
  • 저자는 “에이전트가 굳이 자연어로 대화할 필요가 있는가?”라는 질문을 던지고, 연속 latent 공간에서 직접 협업하는 새로운 MAS 설계를 제안한다.

Methods

  • Auto-regressive latent thought generation: 각 에이전트는 토큰을 sampling하는 대신 last-layer hidden state를 그대로 다음 step의 입력 임베딩으로 되먹인다. 즉 이산 토큰 경로를 우회하여 연속 latent chain-of-thought를 생성한다.
  • Shared Latent Working Memory: 에이전트별 hidden 표현을 키/값으로 축적해 이후 에이전트가 attention 등으로 조회한다. 텍스트 요약 없이 원 표현이 이전·유지되므로 정보 손실이 없다.
  • Training-free: 모든 에이전트는 사전학습된 LLM을 그대로 사용한다. 추가 파라미터나 SFT/RL 없이 추론 시점 파이프라인 변경만으로 동작한다.

Results (with table)

결과
정확도강한 baseline 대비 최대 +14.6%p 향상
출력 토큰baseline 대비 70.8%–83.7% 감소
End-to-end latency4×–4.3× 가속
벤치마크 수9개 (수학/과학 추론, 상식, 코드 생성)
학습 비용0 (training-free)

Discussion

  • 이산 토큰 병목을 제거한 결과, 정확도와 효율이 동시에 개선되는 “no free lunch 예외”가 관찰된다. 이는 자연어 중개가 MAS의 구조적 오버헤드였음을 시사한다.
  • 저자는 이론 분석으로 LatentMAS가 text-based MAS 대비 (1) 더 높은 표현력(expressiveness), (2) 정보 손실 없는 전달(lossless), (3) 낮은 복잡도를 가진다고 논증한다.

Insights

  • Agent 협업의 본질은 “자연어 프로토콜”이 아니라 “내부 표현의 공유”이다. 사람이 읽을 필요가 없다면 latent 공유가 우월하다.
  • 공유 working memory를 외부 자료구조로 분리함으로써, 개별 에이전트의 자기회귀 흐름을 유지하면서도 상호참조가 가능하다.

Discussion Points

  • Latent 채널은 감시/감사 어려움이 크므로 safety 측면 연구가 병행되어야 한다.
  • Tokenizer·아키텍처가 다른 모델을 섞을 때의 latent 정합성 문제, heterogeneous MAS로의 확장 가능성 등이 후속 연구 과제이다.

메타데이터

항목
TitleLatent Collaboration in Multi-Agent Systems
First AuthorJiaru Zou
Co-authorsXiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang
VenuearXiv preprint (2025-11)
arXiv2511.20639
Codehttps://github.com/Gen-Verse/LatentMAS
CategoryApplication

왜 이 연구를 하는가?

LLM 에이전트 시대의 두 가지 현실적 제약에서 출발한다. 첫째, 실제 서비스에서 MAS의 추론 latency와 토큰 비용은 상용 배포의 가장 큰 장벽이며, 특히 3개 이상 에이전트가 다회차로 상호작용할 때 비용이 폭증한다. 둘째, 자연어 프롬프트는 사람이 읽기 좋은 형태일 뿐 모델 내부 표현에 비해 정보 밀도가 낮다. 모델 간 통신까지 사람이 읽을 필요가 없다면, 텍스트 레이어를 거치지 않는 것이 정보이론적으로도 공학적으로도 이득이라는 통찰이 본 연구의 출발점이다. 따라서 저자들은 학습 없이도 곧바로 적용 가능한 latent 협업 파이프라인을 설계해, 성능과 효율을 동시에 확보하는 실용적 대안을 제시하고자 한다.

방법 (Method)

flowchart LR
    Q[입력 질의] --> A1[에이전트 1<br/>latent thought<br/>auto-regression]
    A1 -- last-layer hidden --> SM[(Shared Latent<br/>Working Memory)]
    SM --> A2[에이전트 2<br/>latent reasoning]
    A2 -- hidden --> SM
    SM --> A3[에이전트 N<br/>검증/종합]
    A3 --> DEC[최종 디코딩<br/>텍스트 출력]
  • 입력 질의는 first agent에 임베딩으로 주입된다.
  • 각 agent는 token sampling 없이 last-layer hidden을 곧바로 다음 step의 입력 임베딩으로 재귀적으로 사용해 latent chain-of-thought를 전개한다.
  • 생성된 hidden 시퀀스는 공유 working memory에 기록되고, 후속 agent들은 attention/retrieval로 이를 조회해 협업 컨텍스트로 삼는다.
  • 최종 답변 단계에서만 마지막 agent가 실제 토큰을 decoding한다. 즉 텍스트는 사용자와의 접점에서만 등장한다.

발견

#발견수치/근거
F1Latent 협업이 text-based MAS 대비 정확도를 향상9개 벤치마크에서 최대 +14.6%p
F2출력 토큰 수가 크게 감소70.8%–83.7% 감소
F3End-to-end 추론 가속4×–4.3× 속도 향상
F4추가 학습 불필요training-free, 기존 LLM 가중치 그대로 사용
F5이론적으로 text-based MAS 대비 표현력 우위 및 정보 무손실성저자 정식 증명 제공

이론적 의의

  • MAS 설계 공간을 “프롬프트 엔지니어링” 중심에서 “latent 프로토콜” 중심으로 확장한다.
  • 이산 토큰 병목이 MAS의 근본적 비효율 원인임을 이론·실증으로 동시에 뒷받침한다.
  • Latent CoT(Coconut, Quiet-STaR 계열)의 단일 모델 접근을 다중 에이전트로 자연스럽게 일반화하는 교두보를 제공한다.
  • 공유 working memory는 외재화된 인지(cognitive artifact)로서 에이전트 간 협업의 표준화된 인터페이스가 될 수 있음을 시사한다.

재현성 및 신뢰도 평가

항목평가근거
코드 공개AGitHub Gen-Verse/LatentMAS 전면 공개
데이터 공개A공개 벤치마크(수학/과학/상식/코드) 사용
학습 비용Atraining-free, GPU 학습 불필요
실험 범위B9개 벤치마크로 비교적 폭넓음, 다만 다양한 모델 패밀리 간 heterogeneous 실험은 제한적
이론적 엄밀성Bexpressiveness/lossless 주장 증명 제공, 가정의 일반성은 추가 검토 필요
안전성/해석가능성Clatent 채널의 감시·감사 방법 부재
종합 Evidence QualityB일관된 개선이지만 seed/모델별 분산, ablation 상세도는 본문 확인 필요
종합 ReproducibilityA코드+공개 벤치마크+학습 불요로 재현 난이도 낮음

관련 연구

  • Chain-of-Thought & Latent Reasoning: Coconut(Meta) 등 토큰 대신 hidden state로 사고하는 단일 모델 접근.
  • Multi-Agent LLM Frameworks: AutoGen, MetaGPT, CAMEL 등 자연어 기반 역할 분담 MAS.
  • Agent Communication in MARL: CommNet, TarMAC 등 연속 벡터 메시지를 학습으로 획득한 기존 MARL 통신 연구와 대비된다(여기서는 training-free).
  • Externalization Perspective: 메모리/프로토콜 외재화를 통합한 최근 서베이들(e.g., Externalization in LLM Agents, 2026)과 철학적으로 연결된다.
  • Efficient Inference: Speculative decoding, KV cache sharing과 마찬가지로 “중간 표현 재사용”이라는 동일한 효율 축에 놓인다.

원자적 인사이트

  1. 이산 토큰은 MAS의 병목이다. 에이전트 간 통신을 자연어로 강제하는 설계는 정보 손실과 토큰 비용이라는 이중 세금을 부과하며, latent 공유는 두 축을 동시에 줄이는 드문 해법이다.
  2. Working memory의 외재화는 에이전트 간 협업의 표준 인터페이스가 될 수 있다. 개별 agent의 autoregressive 흐름을 유지하면서도 공유 저장소를 통해 무손실 맥락 전달이 가능하며, 이는 인간 인지에서의 외부 메모(노트, 화이트보드)와 구조적으로 대응된다.
  3. Training-free 개선은 배포 관점에서 특히 가치가 크다. 성능 +14.6%p와 4× 가속을 0 training cost로 얻는다는 점은 프로덕션 MAS 파이프라인에서 즉시 적용 가능한 엔지니어링 레버가 된다.

핵심 용어 정리

  • LatentMAS: 본 논문이 제안하는 training-free latent 협업 MAS 프레임워크.
  • Latent Thought: 토큰 샘플링 없이 last-layer hidden을 다음 입력으로 되먹여 생성하는 연속 공간 상의 사고 단위.
  • Shared Latent Working Memory: 여러 에이전트의 hidden 표현을 축적·조회하는 공유 메모리 모듈.
  • Training-free MAS: 추가 학습 없이 기존 LLM 가중치만으로 구성되는 다중 에이전트 시스템.
  • Text-mediated Communication: 에이전트 간 통신을 자연어 프롬프트/응답으로 중개하는 기존 방식.
  • Lossless Information Exchange: 토큰 양자화로 인한 표현 손실 없이 내부 표현 그대로를 전달하는 통신 특성.

agents multi-agent-systems latent-reasoning llm training-free efficient-inference