Introduction
- LLM이 일상에 점점 더 통합되면서 프라이버시 및 안전 우려 증가
- Collaborative inference가 초기 계층 추론을 외부로 아웃소싱하여 데이터 지역성 보장 제안
- 내부 뉴런 패턴 기반 모델 안전 감사 도입
- 두 기술 모두 LLM의 내부 상태(ISs)를 노출시킴 - 전통적으로 비가역적으로 간주
- Model inversion 공격 연구
- Collaborative inference 연구
- LLM 프라이버시 연구
Methods
- 네 가지 역전 공격 제안: 의미적 유사성과 토큰 매칭률 크게 향상
- 두 가지 화이트박스 최적화 기반 공격: 저깊이/고깊이 ISs에 맞춤
- 2단계 역전 프로세스로 국소 최소값 수렴 회피
- 블랙박스 가중치 접근에서의 전이성 활용
- 역전을 번역 태스크로 취급하는 생성 기반 공격
Results
- 6개 LLM과 의료 상담/코딩 지원 데이터셋에서 평가
- 4,112 토큰의 긴 의료 상담 프롬프트가 Llama-3 중간 계층에서 86.88 F1 토큰 매칭으로 거의 완벽하게 역전
- 네 가지 실용적 방어 평가: 완벽하게 ISs 역전을 막지 못함
Discussion
- 깊은 계층도 프라이버시를 보장하지 않음
- LLM 내부 상태의 위험성 경고
- 향후 완화 설계를 위한 교훈 제시
- 향후 연구: 더 효과적인 방어 메커니즘 개발