Introduction


  • LLM이 일상에 점점 더 통합되면서 프라이버시 및 안전 우려 증가
  • Collaborative inference가 초기 계층 추론을 외부로 아웃소싱하여 데이터 지역성 보장 제안
  • 내부 뉴런 패턴 기반 모델 안전 감사 도입
  • 두 기술 모두 LLM의 내부 상태(ISs)를 노출시킴 - 전통적으로 비가역적으로 간주

Related Papers


  • Model inversion 공격 연구
  • Collaborative inference 연구
  • LLM 프라이버시 연구

Methods


  • 네 가지 역전 공격 제안: 의미적 유사성과 토큰 매칭률 크게 향상
  • 두 가지 화이트박스 최적화 기반 공격: 저깊이/고깊이 ISs에 맞춤
  • 2단계 역전 프로세스로 국소 최소값 수렴 회피
  • 블랙박스 가중치 접근에서의 전이성 활용
  • 역전을 번역 태스크로 취급하는 생성 기반 공격

Results


  • 6개 LLM과 의료 상담/코딩 지원 데이터셋에서 평가
  • 4,112 토큰의 긴 의료 상담 프롬프트가 Llama-3 중간 계층에서 86.88 F1 토큰 매칭으로 거의 완벽하게 역전
  • 네 가지 실용적 방어 평가: 완벽하게 ISs 역전을 막지 못함

Discussion


  • 깊은 계층도 프라이버시를 보장하지 않음
  • LLM 내부 상태의 위험성 경고
  • 향후 완화 설계를 위한 교훈 제시
  • 향후 연구: 더 효과적인 방어 메커니즘 개발