본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Depth Gives a False Sense of Privacy LLM Internal States Inversion

Depth Gives a False Sense of Privacy - LLM Internal States Inversion

2026년 2월 11일2분 분량

Introduction

LLM이 일상에 점점 더 통합되면서 프라이버시 및 안전 우려 증가
Collaborative inference가 초기 계층 추론을 외부로 아웃소싱하여 데이터 지역성 보장 제안
내부 뉴런 패턴 기반 모델 안전 감사 도입
두 기술 모두 LLM의 내부 상태(ISs)를 노출시킴 - 전통적으로 비가역적으로 간주

Related Papers

Model inversion 공격 연구
Collaborative inference 연구
LLM 프라이버시 연구

Methods

네 가지 역전 공격 제안: 의미적 유사성과 토큰 매칭률 크게 향상
두 가지 화이트박스 최적화 기반 공격: 저깊이/고깊이 ISs에 맞춤
2단계 역전 프로세스로 국소 최소값 수렴 회피
블랙박스 가중치 접근에서의 전이성 활용
역전을 번역 태스크로 취급하는 생성 기반 공격

Results

6개 LLM과 의료 상담/코딩 지원 데이터셋에서 평가
4,112 토큰의 긴 의료 상담 프롬프트가 Llama-3 중간 계층에서 86.88 F1 토큰 매칭으로 거의 완벽하게 역전
네 가지 실용적 방어 평가: 완벽하게 ISs 역전을 막지 못함

Discussion

깊은 계층도 프라이버시를 보장하지 않음
LLM 내부 상태의 위험성 경고
향후 완화 설계를 위한 교훈 제시
향후 연구: 더 효과적인 방어 메커니즘 개발

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Tian Dong et al.
Comment: LLM 내부 상태의 역전 공격 및 프라이버시 위험
IsTargetPaper: true
Journal/Conference: arXiv
Linked Bases: [[templates.base]]
Published Year: 2025
Reading Status: Not Started
Review Date: 2026-02-03
Topic: LLM Internal States, Privacy
URL: https://arxiv.org/abs/2507.16372

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog