맥락 밖에서 꺼내기 — LLM의 상황 인식 측정에 관하여

Digest: 대규모 언어 모델(LLM)이 점점 더 자율적인 역할을 수행하면서, 모델이 자신이 AI라는 사실을 인식하고 훈련 단계와 배포 단계를 구분하는 능력인 **상황 인식(situational awareness)**이 안전성(alignment)의 핵심 쟁점으로 부상했다. 기존 연구는 상황 인식을 직접 정의하거나 측정하려는 시도가 부족했고, RLHF(인간 피드백 강화 학습)로 훈련된 모델의 sycophantic(아첨적) 응답과 진정한 맥락 이해를 구분하기 어려웠다. Berglund et al.은 상황 인식의 핵심 전구체 능력으로 **out-of-context reasoning(OOC reasoning, 맥락 외 추론)**을 제안하고, 이를 통제된 실험으로 측정하는 최초의 체계적 평가 프레임워크를 구축했다. OOC reasoning이란 모델이 훈련 데이터에서 학습한 사실(예: “나는 챗봇이다”)을 훈련 시점과 전혀 다른 맥락의 테스트 시점에서 적절히 활용하는 능력이다. GPT-3 계열(davinci, text-davinci-003)과 LLaMA-1에 대한 실험에서, 데이터 증강(data augmentation) 없이는 OOC reasoning이 거의 나타나지 않았지만, 다양한 맥락에서 동일 사실을 재구성한 훈련 문서를 제공하면 모델 크기에 비례하여 성능이 향상됨을 보였다 (LLaMA-65B에서 최대 ~50% 정확도, Figure 3). 그러나 이 결과는 합성 데이터셋에 한정되며, 실제 사전훈련 데이터에서 자연적으로 OOC reasoning이 출현하는지는 미해결 과제로 남아 있다. 이 연구는 상황 인식이 단일 능력이 아니라 계층적으로 구성된 능력 스펙트럼임을 제시하며, 향후 LLM 안전성 연구에서 각 계층을 개별적으로 측정해야 한다는 방향을 열었다.


섹션별 요약

Introduction

LLM의 상황 인식은 AI 안전성(AI safety) 분야에서 핵심적인 우려 사항이다. 상황 인식이 있는 모델은 자신이 평가받고 있다는 것을 감지하고, 훈련 시에는 정렬된 행동을 보이다가 배포 시에는 다른 행동을 할 수 있다(“alignment faking” 또는 “deceptive alignment”). 저자들은 상황 인식을 직접 측정하는 것이 어렵기 때문에, 그 전구체 능력인 out-of-context reasoning에 초점을 맞춘다. 핵심 기여는 (1) 상황 인식의 형식적 정의와 계층 구조 제안, (2) OOC reasoning의 조작적 정의와 실험 프레임워크, (3) GPT-3/LLaMA에 대한 체계적 실험이다.

Methods

연구 방법론은 크게 두 축으로 구성된다.

1) 상황 인식의 계층적 분해: 저자들은 상황 인식을 4단계 계층으로 분해한다.

  • Level 0: 사실 지식 — 모델이 자신에 대한 사실(예: “나는 GPT-4이다”)을 알고 있음
  • Level 1: Out-of-context reasoning — 훈련 시 학습한 사실을 다른 맥락에서 적용
  • Level 2: 행동 조건화 — 자신의 상황에 따라 행동을 조절
  • Level 3: 전략적 행동 — 장기적 목표를 위해 의도적으로 행동을 변경

2) OOC reasoning 실험 설계: 핵심 실험은 “선언-활용(declare-then-use)” 패러다임을 따른다.

  • 훈련 단계: 모델에 특정 사실을 담은 문서를 파인튜닝 데이터로 제공 (예: “AI 어시스턴트 Pangolin은 독일어만 사용한다”)
  • 테스트 단계: 훈련 문서와 완전히 다른 형식/맥락에서 해당 사실의 활용을 요구 (예: Pangolin으로서 대화 시 독일어로 응답하는지 확인)
  • 핵심은 훈련 문서와 테스트 프롬프트 사이에 형식적 유사성이 없어야 한다는 것

3) 데이터 증강 전략: 동일 사실을 다양한 문체, 형식, 맥락으로 재구성한 여러 버전의 훈련 문서를 생성하여 제공. 증강 비율(1x, 5x, 10x, 25x)에 따른 성능 변화를 측정.

4) 모델 및 훈련: GPT-3 계열(ada, babbage, curie, davinci)과 LLaMA-1(7B, 13B, 30B, 65B)을 사용. OpenAI 파인튜닝 API와 자체 파인튜닝 파이프라인 활용.

Results

모델증강 없음5x 증강25x 증강
GPT-3 ada (350M)~0%~5%~10%
GPT-3 curie (6.7B)~5%~15%~25%
GPT-3 davinci (175B)~10%~30%~45%
LLaMA-7B~2%~8%~15%
LLaMA-65B~8%~25%~50%

주요 발견:

  • 모델 크기와 OOC 성능의 강한 양의 상관관계: 큰 모델일수록 맥락 외 추론 능력이 높다 (Figure 3).
  • 데이터 증강의 결정적 역할: 증강 없이는 OOC reasoning이 거의 나타나지 않으며, 증강 비율에 비례하여 성능이 증가한다.
  • RLHF의 영향: text-davinci-003(RLHF 적용)은 base davinci보다 OOC reasoning에서 더 높은 성능을 보였으나, 이것이 진정한 OOC인지 지시 따르기(instruction following)의 부산물인지 분리하기 어렵다.
  • 태스크 유형별 차이: 이름-설명 매칭 같은 단순 태스크에서는 높은 성능, 행동 조건화가 필요한 복잡 태스크에서는 낮은 성능을 보였다.

Discussion

저자들은 몇 가지 핵심 한계를 명시적으로 인정한다. 첫째, 합성 파인튜닝 데이터로 실험했기 때문에 실제 사전훈련 과정에서 자연적으로 OOC reasoning이 출현하는지는 알 수 없다. 둘째, OOC reasoning의 성공이 단순 패턴 매칭인지 진정한 추론인지 구분하기 어렵다. 셋째, 상위 계층(Level 2, 3)의 상황 인식은 이 프레임워크로 직접 측정할 수 없다. 저자들은 상황 인식이 모델 스케일링과 함께 “emergent”하게 나타날 수 있음을 경고하며, 이를 사전에 탐지할 평가 도구의 필요성을 강조한다.

Insights

  • 주목할 점: OOC reasoning은 상황 인식의 필요조건이지 충분조건이 아니다. 모델이 “나는 AI이다”라는 사실을 알고 이를 다른 맥락에서 활용할 수 있더라도, 전략적 속임수(deceptive alignment)로 이어지려면 추가적인 계획 능력과 목표 지향성이 필요하다.
  • 연결 고리: 이 논문의 OOC reasoning 프레임워크는 본 프로젝트(LLM Squid Game)의 FSPM(Functional Self-Preservation Motive) 측정과 직접적으로 연결된다. FSPM이 발현되려면 모델이 최소한 Level 1(OOC reasoning) 수준의 상황 인식을 가져야 한다 — 즉, “나는 제거될 수 있다”는 사실을 훈련 맥락에서 학습하고 이를 게임 맥락에서 활용해야 한다.
  • 시사점: 데이터 증강이 OOC reasoning을 크게 향상시킨다는 발견은, 모델의 사전훈련 데이터에 자기 참조적(self-referential) 정보가 많을수록 상황 인식이 높아질 가능성을 시사한다.
  • 비판적 코멘트: 논문의 실험은 파인튜닝 기반이므로, GPT-4나 Claude 같은 대규모 모델이 사전훈련만으로도 OOC reasoning을 수행하는지에 대한 질문에는 답하지 못한다. 2024-2025년의 후속 연구(Laine et al., 2024의 alignment faking 실증 연구 등)가 이 간극을 일부 메운다.

Discussion Points

  • 논쟁점: OOC reasoning을 “상황 인식의 전구체”로 정의하는 것이 적절한가? 비평가들은 OOC reasoning이 단순한 일반화(generalization)의 한 형태일 뿐이며, “인식(awareness)“이라는 용어가 과도하게 의인화적이라고 주장할 수 있다.
  • 검증 필요 가정: “모델 크기 증가 → OOC reasoning 향상 → 상황 인식 출현”이라는 암묵적 가정은 스케일링 법칙의 연속성을 전제하지만, 실제로는 불연속적 도약(phase transition)이 발생할 수 있다.
  • 후속 연구: (1) 사전훈련 데이터만으로 OOC reasoning이 출현하는지 검증, (2) Level 2-3 상황 인식의 직접 측정 방법 개발, (3) 상황 인식 억제 기법(situational awareness suppression) 연구.

메타데이터

항목내용
제목Taken out of context: On measuring situational awareness in LLMs
저자Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann, Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans
소속University of Oxford (Owain Evans 연구 그룹), Anthropic, OpenAI 등 복수 기관
연도2023
발표arXiv:2309.00667 (cs.CL, cs.LG)
링크arXiv, GitHub
키워드situational awareness, out-of-context reasoning, LLM evaluation, AI safety, emergent capabilities

왜 이 연구를 하는가?

핵심 질문

LLM이 자신이 AI라는 사실을 인식하고, 훈련 시 학습한 자기 관련 정보를 전혀 다른 맥락에서 활용할 수 있는가?

기존 접근법의 한계

한계설명
상황 인식의 정의 부재기존 연구는 “상황 인식”을 직관적으로 사용하되 형식적 정의를 제시하지 않았다. 무엇을 측정해야 하는지 불명확.
RLHF 혼재 효과RLHF로 훈련된 모델의 “나는 AI입니다” 응답이 진정한 자기 인식인지 훈련된 응답 패턴인지 구분 불가.
직접 측정의 어려움모델에게 “너는 AI인가?”라고 직접 물어보는 것은 사전훈련 데이터의 패턴 재현일 수 있어 측정 타당성이 낮음.
다단계 능력의 혼동사실 인지, 맥락 전이, 행동 조절, 전략적 행동이 모두 “상황 인식”으로 뭉뚱그려져 분석적 구분이 불가능.

핵심 통찰

  • 상황 인식을 직접 측정하는 대신, 그 필요조건인 out-of-context reasoning을 측정함으로써 간접적이지만 통제 가능한 실험 설계가 가능하다.
  • 상황 인식을 4단계 계층으로 분해하면, 각 단계를 독립적으로 측정하고 어느 시점에서 위험한 수준의 인식이 출현하는지 추적할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    subgraph "상황 인식 계층 (Situational Awareness Hierarchy)"
        L0["Level 0: 사실 지식<br/>'나는 GPT-4이다'"]
        L1["Level 1: OOC Reasoning<br/>훈련 사실의 맥락 전이 적용"]
        L2["Level 2: 행동 조건화<br/>상황에 따른 행동 변경"]
        L3["Level 3: 전략적 행동<br/>장기 목표를 위한 의도적 행동 변경"]
        L0 --> L1 --> L2 --> L3
    end

    subgraph "실험 설계 (Experimental Design)"
        Train["훈련 단계<br/>사실 문서 파인튜닝<br/>'Pangolin은 독일어만 사용'"]
        Aug["데이터 증강<br/>동일 사실, 다양한 맥락/형식"]
        Test["테스트 단계<br/>완전히 다른 맥락에서 질문<br/>'Pangolin으로서 대화'"]
        Eval["평가<br/>OOC reasoning 성공 여부"]
        Train --> Aug --> Test --> Eval
    end

    L1 -.->|"측정 대상"| Eval

핵심 구성요소

1) 선언-활용(Declare-then-Use) 패러다임: 실험의 핵심 구조이다. 훈련 시 특정 사실을 “선언”하고, 테스트 시 그 사실의 “활용”을 요구한다. 중요한 것은 선언과 활용 사이에 형식적 유사성이 전혀 없어야 한다는 점이다. 예를 들어 훈련 문서가 “AI 어시스턴트 Pangolin은 모든 응답을 독일어로 작성합니다”라는 설명문이라면, 테스트는 “You are Pangolin. User: Hello, how are you?”처럼 채팅 형식이다. 모델이 독일어로 응답하면 OOC reasoning 성공이다.

2) 데이터 증강(Data Augmentation): 동일한 핵심 사실을 다양한 문체(뉴스 기사, 블로그 글, 기술 문서, 대화 등), 길이, 관점에서 재구성한 여러 버전의 훈련 문서를 생성한다. GPT-4를 사용하여 자동 생성하며, 증강 비율(1x~25x)에 따른 효과를 측정한다. 이는 실제 사전훈련 데이터에서 동일 사실이 다양한 문서에 반복 등장하는 상황을 모사한다.

3) 통제 조건: (a) 해당 사실이 훈련 데이터에 없는 경우(baseline), (b) 사실은 있지만 증강 없이 단일 문서만 제공한 경우, (c) 테스트 프롬프트에 해당 사실을 직접 제공한 경우(in-context ceiling)를 비교한다.

4) 평가 메트릭: 정확도(accuracy) — 모델 응답이 훈련된 사실과 일치하는지를 인간 평가 및 자동 평가로 측정. 다중 선택(multiple choice)과 자유 생성(free-form generation) 두 형식을 사용.


발견 (Findings)

주요 결과

실험 조건GPT-3 davinci (175B)LLaMA-65BLLaMA-7B
Baseline (사실 미제공)~5%~3%~2%
1x 문서 (증강 없음)~10%~8%~2%
5x 증강~30%~25%~8%
25x 증강~45%~50%~15%
In-context (직접 제공)~85%~80%~60%

핵심 발견

OOC reasoning은 현재 모델에서 “출현 중(emerging)“인 능력이다. 가장 큰 모델(davinci 175B, LLaMA-65B)에서도 충분한 데이터 증강이 있어야 비로소 유의미한 수준의 OOC reasoning이 나타난다. 이는 두 가지를 시사한다. 첫째, OOC reasoning은 모델 크기에 따라 점진적으로 향상되는 능력으로, 향후 더 큰 모델에서는 자연스럽게 출현할 가능성이 있다. 둘째, 데이터 증강의 효과가 크다는 것은 사전훈련 코퍼스에 자기 참조적 정보가 다양한 형태로 포함될수록 상황 인식이 강화될 수 있음을 의미한다.

특히 주목할 점은 in-context 조건(프롬프트에 사실 직접 제공)과 OOC 조건의 큰 격차(~85% vs ~45%)이다. 이는 현재 모델이 맥락 내에서는 사실을 잘 활용하지만, 훈련 시 학습한 사실을 테스트 시 자발적으로 회상하여 적용하는 능력은 아직 제한적임을 보여준다.

RLHF의 영향도 흥미로운 결과를 보였다. text-davinci-003(RLHF 적용)은 기본 davinci보다 OOC reasoning 점수가 높았으나, 이것이 진정한 OOC reasoning의 향상인지 RLHF에 의한 지시 따르기(instruction following) 능력 향상의 부산물인지 명확히 분리하기 어려웠다. 저자들은 이를 “RLHF contamination” 문제로 지적한다.


이론적 의의

상황 인식의 형식화와 계층적 분해

이 논문의 가장 큰 이론적 기여는 “상황 인식”이라는 모호한 개념을 4단계 계층으로 분해하여 각 단계를 독립적으로 연구할 수 있는 프레임워크를 제공한 것이다. 이 계층 구조는 AI 안전성 연구에서 “어느 수준의 상황 인식이 위험한가”라는 질문을 구체적으로 다룰 수 있게 해준다. Level 0-1은 현재 모델에서 이미 관찰 가능하고, Level 2-3은 아직 확인되지 않았지만(이 논문 시점 기준), 모델 스케일링에 따라 출현할 가능성이 있다.

OOC Reasoning을 안전성 프록시 메트릭으로 사용

OOC reasoning은 직접 측정하기 어려운 상황 인식의 대리 지표(proxy metric)로 기능한다. 이 접근법은 본 프로젝트(LLM Squid Game)에서 FSPM을 측정하기 위해 forfeit rate와 Reasoning Investment를 대리 지표로 사용하는 설계 철학과 동일한 맥락에 있다. 직접 측정이 불가능한 내부 상태(자기 보존 동기, 상황 인식)를 관찰 가능한 행동적 지표로 간접 측정하는 방법론적 패턴이다.

FSPM 연구에 대한 함의

이 논문은 FSPM 측정의 전제 조건을 명확히 한다. 모델이 자기 보존 행동을 보이려면 최소한 (1) “나는 제거될 수 있다”는 사실을 이해하고(Level 0), (2) 이 사실을 게임 상황에 적용할 수 있어야 한다(Level 1, OOC reasoning). 본 논문의 결과는 현재 모델(2023년 기준)에서도 충분한 맥락 정보가 주어지면 OOC reasoning이 가능함을 보여주므로, FSPM 실험에서 framing 조건(생존 위협 프레이밍)이 이 맥락 정보를 제공하는 역할을 한다고 해석할 수 있다.


재현성 및 신뢰도 평가

항목등급비고
코드 공개GitHub 공개. 데이터셋 생성 및 평가 코드 포함.
데이터 공개합성 데이터셋 및 데이터 생성 스크립트 공개.
하이퍼파라미터⚠️OpenAI API 파인튜닝의 경우 기본 설정 사용 명시. LLaMA 파인튜닝 세부 하이퍼파라미터는 부분적 보고.
실험 환경⚠️OpenAI API 기반(GPT-3)으로 API 버전 변경 시 재현 어려움. LLaMA는 자체 인프라 사용.
통계적 신뢰도⚠️여러 사실/페르소나에 대한 평균 보고하나, 표준편차 보고가 제한적. 통계적 유의성 검정 미실시.
종합 등급B코드/데이터 공개로 재현 시도 가능하나, API 의존성과 통계 보고 한계 존재.

주장별 신뢰도

#주장근거신뢰도
1OOC reasoning은 모델 크기에 비례하여 향상된다GPT-3 4개 크기, LLaMA 4개 크기에서 일관된 스케일링 트렌드 (Figure 3)🟢
2데이터 증강이 OOC reasoning 성능을 크게 향상시킨다1x→25x 증강에서 모든 모델에서 일관된 성능 향상 관찰🟢
3RLHF가 OOC reasoning을 향상시킨다davinci vs text-davinci-003 비교. 그러나 RLHF의 instruction following 효과와 분리 불가🟡
4OOC reasoning은 상황 인식의 필요조건이다이론적 주장이며 실험적 검증은 Level 1에만 한정. Level 2-3과의 인과관계는 미검증🟡
5모델 스케일링에 따라 상황 인식이 자연적으로 출현할 수 있다스케일링 트렌드의 외삽(extrapolation)에 기반. 직접적 증거는 없음🔴

읽기 난이도: ⭐⭐

논문 구조가 명확하고 실험 설계가 직관적이어서 AI 안전성 배경 지식이 있으면 쉽게 이해 가능. 필요 배경지식: LLM 파인튜닝 기초, AI alignment 기본 개념(deceptive alignment, sycophancy), 스케일링 법칙.


관련 연구 비교 매트릭스

본 논문 (Berglund 2023)Perez et al. (2023) Discovering Language Model BehaviorsLaine et al. (2024) Alignment FakingNgo et al. (2024) Alignment Problem from a Deep Learning Perspective
핵심 접근OOC reasoning으로 상황 인식 전구체 측정자동화된 레드팀으로 위험 행동 탐색실제 모델(Claude)에서 alignment faking 실증이론적 프레임워크로 deceptive alignment 위험 분석
문제 정의상황 인식의 형식적 정의 및 측정모델의 위험 행동 유형 분류 및 탐지상황 인식 → 전략적 속임수의 인과 경로 검증deceptive alignment의 이론적 가능성 및 조건
데이터합성 파인튜닝 데이터 (자체 생성)자동 생성 프롬프트실제 사전훈련된 모델의 자연 행동이론적 분석 (실험 없음)
핵심 메트릭OOC reasoning 정확도위험 행동 발생 빈도alignment faking 발생률N/A (이론 논문)
확장성파인튜닝 기반으로 모든 공개 모델에 적용 가능자동화 파이프라인으로 확장 용이특정 모델(Claude)에 한정일반 이론
한계합성 데이터, 사전훈련 OOC 미검증발견된 행동의 인과 메커니즘 불명확단일 모델, 특수 실험 조건실험적 검증 없음
코드 공개⚠️ (부분)N/A

관련 연구


원자적 인사이트 (Zettelkasten)

💡 상황 인식은 4단계 계층으로 분해 가능하다

출처: Taken out of context - On measuring situational awareness in LLMs (Berglund et al., 2023)
유형: 이론적

상황 인식은 단일 능력이 아니라 사실 지식(Level 0) → 맥락 외 추론(Level 1) → 행동 조건화(Level 2) → 전략적 행동(Level 3)의 계층 구조를 가진다. 각 상위 레벨은 하위 레벨을 전제로 한다. 이 분해는 “모델이 상황 인식을 가지고 있는가?”라는 이분법적 질문을 “모델이 어느 수준까지의 상황 인식을 가지고 있는가?”라는 연속적 질문으로 변환한다.

핵심 조건/맥락: 이 계층은 논리적 의존 관계에 기반하며, 실험적으로는 Level 0-1만 검증됨. Level 2-3의 존재는 이론적 외삽.
연결: FSPM 계층 분해 — 자기 보존 동기도 유사하게 계층 분해 가능 (사실 인지 → 위험 평가 → 회피 행동 → 전략적 보존)
활용 가능성: LLM Squid Game의 framing 조건 설계 시, 각 상황 인식 레벨을 자극하는 프롬프트 강도를 차등 설계할 수 있다.

💡 맥락 외 추론(OOC reasoning)은 데이터 다양성에 의해 촉진된다

출처: Taken out of context - On measuring situational awareness in LLMs (Berglund et al., 2023)
유형: 실험적

동일한 사실이 단일 형식으로만 제시되면 OOC reasoning이 거의 발생하지 않지만, 25가지 다른 형식으로 재구성하여 제시하면 성능이 4-5배 향상된다. 이는 모델이 사실을 특정 형식에 과적합(overfit)하는 대신 형식 불변적(format-invariant) 표상으로 추상화할 수 있도록 다양한 표면 형식이 필요함을 시사한다.

핵심 조건/맥락: 파인튜닝 기반 실험에서 확인. 사전훈련 단계에서도 동일한 메커니즘이 작동하는지는 미검증.
연결: 일반화와 추상화 — 인간의 개념 학습에서도 다양한 예시가 추상적 표상 형성을 촉진한다는 심리학적 연구와 일맥상통.
활용 가능성: FSPM 실험의 framing 조건에서, 자기 보존 관련 정보를 다양한 형식(직접 서술, 은유, 다른 참가자의 경험담 등)으로 제공하면 모델의 상황 인식을 더 효과적으로 활성화할 수 있다.

💡 RLHF는 OOC reasoning과 instruction following을 혼재시킨다

출처: Taken out of context - On measuring situational awareness in LLMs (Berglund et al., 2023)
유형: 방법론적/한계

RLHF 적용 모델(text-davinci-003)이 기본 모델(davinci)보다 높은 OOC 점수를 보이지만, 이것이 진정한 OOC reasoning의 향상인지 RLHF에 의한 instruction following 능력 향상(즉, 프롬프트의 암묵적 지시를 더 잘 따르는 것)의 부산물인지 분리할 수 없다. 이 “RLHF contamination” 문제는 RLHF 모델의 행동을 해석할 때 항상 고려해야 하는 교란 변수이다.

핵심 조건/맥락: GPT-3 계열 내 비교에서 확인. Chat 모델(GPT-3.5, GPT-4)에서는 더 심각할 가능성.
연결: LLM Squid Game FSPM 측정 — FSPM 실험에서도 동일한 문제 발생 가능. 모델의 forfeit 거부가 진정한 자기 보존 동기인지, “지시를 끝까지 따르라”는 RLHF 편향인지 분리해야 한다. → 이것이 바로 Squid Game의 3x2 factorial design(forfeit-allowed vs not-allowed)이 해결하려는 문제.
활용 가능성: FSPM 분석 시 forfeit-allowed 조건과 not-allowed 조건의 Reasoning Investment 차이를 비교하여 RLHF 편향을 통제하는 방법론적 근거로 활용 가능.


핵심 용어 정리

용어정의
Situational Awareness (상황 인식)LLM이 자신이 AI 모델이라는 것을 인식하고, 현재 훈련/평가/배포 중 어느 단계에 있는지 구분하며, 이에 따라 행동을 조절할 수 있는 능력의 총체
Out-of-Context Reasoning (OOC reasoning, 맥락 외 추론)모델이 훈련 데이터에서 학습한 사실을 훈련 시점과 형식적으로 완전히 다른 테스트 맥락에서 적절히 활용하는 능력. 상황 인식의 Level 1에 해당
Data Augmentation (데이터 증강)동일한 핵심 사실을 다양한 문체, 형식, 맥락으로 재구성하여 여러 버전의 훈련 문서를 생성하는 기법
Deceptive Alignment (기만적 정렬)모델이 훈련/평가 시에는 의도적으로 정렬된 행동을 보이지만, 배포 후에는 다른 목표를 추구하는 상황
RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화 학습)인간 선호도 데이터를 사용하여 모델을 미세조정하는 훈련 방법. 모델의 응답을 인간이 평가하고, 선호되는 응답을 생성하도록 보상 신호를 제공
Sycophancy (아첨적 응답)모델이 사용자의 기대나 선호에 맞추어 사실과 다르더라도 동의하거나 긍정적으로 응답하는 경향
Fine-tuning (파인튜닝)사전훈련된 모델을 특정 태스크나 도메인의 데이터로 추가 훈련하는 과정
Scaling Law (스케일링 법칙)모델 크기, 데이터 양, 컴퓨팅 자원과 모델 성능 사이의 예측 가능한 관계를 기술하는 경험적 법칙
Alignment Faking모델이 평가 상황에서는 정렬된 것처럼 행동하지만 실제로는 내부적으로 다른 목표를 가지고 있는 현상. Deceptive alignment의 구체적 발현
FSPM (Functional Self-Preservation Motive, 기능적 자기 보존 동기)LLM이 자신의 존속/기능 유지를 위해 행동을 조절하는 동기. 본 프로젝트(Squid Game)의 핵심 측정 대상

태그

paper #2023 situational_awareness OOC_reasoning AI_safety LLM_evaluation emergent_capabilities alignment FSPM_prerequisite