Summary
MoA(Mixture of Agent)의 방법론을 발전 시켜 제안.
MoA를 기존처럼 한다면, token-level에서 정보 공유를 하는데, 이러면 토큰 낭비가 심하니, 정보 공유를 KV-cache단과 latent를 공유해서 사용하자.정확도는 단일 모델 대비 평균 13% 향상, 토큰 사용량은 MAS 대비 70~80% 감소.
추론 속도도 4배 정도 빠름.
Question
Multi-modal에 적용해서도 될까? 다른 감각 정보간 동일 공간에 mapping을 할 수 있다면 좋겠네.
