Summary

LVLM(Large Vision Language Model)에 RAG를 붙여 사용하면, cross modal 간 attention이 한 쪽으로 쏠리는, Attention-sink 같은 현상이 나타남. 따라서 성능이 떨어지는 현상이 포착되는데, 이걸 query를 한 번 더 input으로 사용해서, dual-query format으로 맞춰 사용하자는 제안.

prompt 구성 상으로, (img, query, context, query)를 사용하는데, 어쩌피 학습 시킬 때, casual masked attention을 사용하니, 첫 번째 query는 앞의 img에 대한 attention만, 뒤의 query는 앞의 img, query, context에 대한 모든 처리를 함. 그리고 실제 사용 시에는 두 query들에 대한 attention을 확률로 쪼개서 합하는 형식으로 사용.

추가적인 cost가 별로 없긴 함. query는 일반적으로 img나 context보다는 짧으니.

Question

궁금한 건, 뒤의 query 같은 경우, attention이 앞의 query랑도 하게 될텐데, 앞 query에 과도한 attention을 하지는 않는지 궁금함. 구조적으로는 완전히 token-level까지 값이 같을 텐데,,