데이터셋 비유사성 분석 (Dataset Dissimilarity Analysis)

목적: 리뷰어 반론 “ExploreToM-SelfAware adapter의 cosine similarity가 높은 것은 두 데이터셋이 유사하기 때문”을 정량적으로 반박

분석 일자: 2026-03-10 (v1~v4 전체 분석 확장)
스크립트: scripts/analysis/analyze_dataset_dissimilarity.py


1. 분석 목적

본 연구의 핵심 결과인 ToM↔Self adapter pair의 높은 cosine similarity에 대해, “두 학습 데이터셋(ExploreToM, SelfAware)이 텍스트적으로 유사하기 때문에 adapter weight가 비슷해진 것”이라는 대안 가설을 검증한다.

만약 ExploreToM-SelfAware 쌍이 ExploreToM-Control 쌍보다 데이터셋 수준에서 더 유사하다면, adapter weight의 cosine similarity가 높은 것은 task-level 표상 공유가 아닌 데이터 유사성의 artifact일 수 있다. 반대로, ExploreToM-SelfAware가 control 쌍과 동등하거나 더 비유사하다면, 데이터 유사성 가설은 기각된다.

추가 검증: SelfAware 데이터셋의 4개 버전(v1~v4)을 모두 분석하여, 특정 버전 선택에 의존하지 않는 version-invariant 결론을 확보한다.


2. 분석 방법

12개 데이터셋에서 각 1,000 샘플을 추출하여 4개 축으로 비유사성을 측정한다.

분석 대상

데이터셋샘플 수 (분석)전체 크기역할
ExploreToM1,00010,643Treatment (ToM)
SelfAware-v11,0002,695Treatment (Self) — 원본 (IDK 31.1%)
SelfAware-v21,0001,967Treatment (Self) — IDK 5%로 축소
SelfAware-v31,0001,967Treatment (Self) — IDK 20종 변형
SelfAware-v41,0001,967Treatment (Self) — 장문 응답 + 마커
GSM8K1,0005,979Control
TriviaQA-v21,0005,560Control
ARC1,0002,072Control
CommonsenseQA1,0007,793Control
BoolQ1,0007,541Control
Ethics1,000Control
PIQA1,000Control

참고: v2v4는 질문(user content)이 동일하고 응답(assistant content)만 다르므로, user content 기반 비유사성 지표(centroid distance, lexical metrics)는 동일한 값을 가진다. v1만 질문 세트가 다름 (2,695개 중 1,000개 샘플 vs v2v4의 1,967개 중 1,000개 샘플).

4개 분석 축

  1. 의미적 비유사성 (Semantic Dissimilarity): SimCSE (princeton-nlp/sup-simcse-roberta-large) 임베딩 기반 centroid cosine distance, intra/inter similarity, t-SNE
  2. 어휘적 비유사성 (Lexical Dissimilarity): Vocabulary Jaccard index, unigram/bigram JSD (Jensen-Shannon Divergence)
  3. 구조적 비유사성 (Structural Dissimilarity): 질문/답변 길이 분포, 질문 유형 분포 (5W1H + yes/no)
  4. 주제적 비유사성 (Topic Dissimilarity): LDA (15 topics) 기반 topic distribution JSD

3. 결과

3.1 의미적 비유사성: Centroid Cosine Distance (Fig. 1)

Centroid Distance Heatmap

ExploreToM과 각 데이터셋 간의 centroid cosine distance (1 - cosine similarity):

PairCentroid Distance순위 (높을수록 비유사)
ExploreToM ↔ SelfAware-v10.945#1
ExploreToM ↔ Ethics0.938#2
ExploreToM ↔ SelfAware-v20.932#3
ExploreToM ↔ SelfAware-v30.932#3
ExploreToM ↔ SelfAware-v40.932#3
ExploreToM ↔ ARC0.921#6
ExploreToM ↔ PIQA0.842#7
ExploreToM ↔ TriviaQA0.837#8
ExploreToM ↔ GSM8K0.833#9
ExploreToM ↔ CommonsenseQA0.806#10
ExploreToM ↔ BoolQ0.731#11 (가장 유사)

4개 SelfAware 버전 모두 ExploreToM과 centroid distance 0.932~0.945로, Ethics(0.938)에 근접하거나 이를 상회. v1은 전체 #1로 가장 비유사.

3.2 의미적 비유사성: Intra/Inter Similarity & KS Test (Fig. 2)

Intra/Inter Similarity

ExploreToM-SelfAware-v* pair와 ExploreToM-GSM8K pair의 inter-similarity 분포를 KS test로 비교:

VersionKS statisticKS p-valueCohen’s d
SelfAware-v10.1750.0043−0.328
SelfAware-v20.2050.0004−0.364
SelfAware-v30.1700.0061−0.334
SelfAware-v40.2200.0001−0.440

4개 버전 모두 Cohen’s d가 음수. 즉, SelfAware 샘플들은 GSM8K 샘플들보다 ExploreToM과 유의하게 더 비유사하다. p-value는 모두 0.01 미만.

3.3 의미적 비유사성: t-SNE Projection (Fig. 3)

t-SNE

12개 데이터셋의 SimCSE 임베딩을 t-SNE로 2D 투영한 결과, ExploreToM과 SelfAware v1~v4는 서로 다른 클러스터를 형성하며 명확히 분리된다.

3.4 어휘적 비유사성 (Fig. 4)

Lexical Metrics

PairVocab Jaccard1-gram JSD2-gram JSD
ExploreToM ↔ SelfAware-v10.0930.6230.796
ExploreToM ↔ SelfAware-v2/v3/v40.0950.6250.797
ExploreToM ↔ Ethics0.1550.6000.781
ExploreToM ↔ ARC0.1110.6060.785
ExploreToM ↔ PIQA0.1270.6220.790
ExploreToM ↔ GSM8K0.1150.6180.791
ExploreToM ↔ TriviaQA0.0810.6300.795
ExploreToM ↔ CommonsenseQA0.1100.6130.792
ExploreToM ↔ BoolQ0.1270.5830.777
  • Vocab Jaccard: SelfAware v1(0.093), v2~v4(0.095) 모두 대부분의 control보다 낮은 어휘 중복. TriviaQA(0.081)만 더 낮음
  • 2-gram JSD: SelfAware v2~v4(0.797)는 전체 #1 (가장 비유사), v1(0.796)도 #2

3.5 구조적 비유사성: 길이 분포 (Fig. 5)

Length Distributions

질문/답변 길이에 대한 Mann-Whitney U test 결과, ExploreToM과 모든 다른 데이터셋 간 길이 분포가 유의하게 다름 (모든 pair에서 p ≈ 0.0).

3.6 구조적 비유사성: 질문 유형 분포 (Fig. 6)

Question Types

질문 유형 (What/Who/Where/When/Why/How/Yes-No) 분포에 대한 Chi-squared test 결과 유의 (p ≈ 0.0).

3.7 주제적 비유사성: Topic JSD (Fig. 7)

Topic JSD

PairTopic JSD
ExploreToM ↔ Ethics0.773
ExploreToM ↔ PIQA0.766
ExploreToM ↔ BoolQ0.734
ExploreToM ↔ GSM8K0.730
ExploreToM ↔ ARC0.686
ExploreToM ↔ TriviaQA0.674
ExploreToM ↔ SelfAware-v2/v3/v40.658
ExploreToM ↔ SelfAware-v10.655
ExploreToM ↔ CommonsenseQA0.642

Topic JSD에서 SelfAware v1v4(0.6550.658)은 control 범위(0.642~0.773) 내에 위치. 이 축에서만 약간 낮지만, 다른 축의 결과와 모순되지 않는다.


4. ExploreToM-SelfAware vs ExploreToM-Control 종합 비교

4.1 ExploreToM 기준

지표v1v2v3v4Control 평균Control 범위
Centroid Distance0.945 (#1)0.932 (#3)0.932 (#3)0.932 (#3)0.8440.731–0.938
Vocab Jaccard0.0930.0950.0950.0950.1180.081–0.155
1-gram JSD0.6230.6250.6250.6250.6100.583–0.630
2-gram JSD0.796 (#2)0.797 (#1)0.797 (#1)0.797 (#1)0.7880.777–0.795
Topic JSD0.6550.6580.6580.6580.7120.642–0.773

4개 버전 모두에서 centroid distance가 control 평균(0.844)을 크게 상회하며, bigram JSD는 전체 #1~#2. Topic JSD에서만 control 평균 이하이나 control 범위 내.

4.2 SelfAware v1~v4 기준 비유사성 (양방향 검증)

ExploreToM만을 기준으로 삼으면 “기준 선택 편향”이라는 재반론이 가능하다. 이를 차단하기 위해 SelfAware 각 버전을 기준으로 동일 분석을 수행하였다.

SelfAware-vs-ExploreToM 요약 (ExploreToM 쌍 only, control 쌍 제외)

기준Centroid Dist.Vocab Jaccard1-gram JSD2-gram JSDTopic JSDExploreToM 순위
v1 기준0.945 ★0.0930.623 ★0.796 ★0.655#1 (모든 쌍 중 가장 비유사)
v2 기준0.932 ★0.0950.625 ★0.797 ★0.658#1
v3 기준0.932 ★0.0950.625 ★0.797 ★0.658#1
v4 기준0.932 ★0.0950.625 ★0.797 ★0.658#1

★ = 해당 버전 기준 전체 #1 (가장 비유사)

4개 버전 모두에서 ExploreToM이 centroid distance, 1-gram JSD, 2-gram JSD #1으로 가장 비유사한 쌍. 기준 선택과 버전 선택에 관계없이 결론이 동일하다.

SelfAware-v2 기준 전체 표 (대표)

PairCentroid Dist.Vocab Jaccard1-gram JSD2-gram JSDTopic JSD
SelfAware-v2 ↔ ExploreToM0.9320.0950.6250.7970.658
SelfAware-v2 ↔ PIQA0.6700.1180.6220.7940.640
SelfAware-v2 ↔ Ethics0.6990.0910.5760.7820.601
SelfAware-v2 ↔ GSM8K0.6460.1170.5690.7740.387
SelfAware-v2 ↔ BoolQ0.4580.0870.5350.7610.240
SelfAware-v2 ↔ TriviaQA0.2090.1420.5280.7480.138
SelfAware-v2 ↔ ARC0.2260.1610.5190.7500.201
SelfAware-v2 ↔ CommonsenseQA0.1770.1570.5200.7510.228

★ = 전체 #1 (가장 비유사). v1/v3/v4도 동일 패턴 (ExploreToM이 모든 주요 지표에서 #1).


5. 결론

핵심 발견

  1. ExploreToM-SelfAware는 의미적 임베딩 공간에서 최상위: v1은 centroid distance 0.945로 전체 #1, v2~v4는 0.932로 Ethics(0.938)에 이어 #3
  2. 어휘적 중복이 가장 낮은 수준 (Vocab Jaccard 0.093~0.095)
  3. Bigram JSD 전체 #1~#2 (0.796~0.797, 가장 비유사)
  4. 길이 분포, 질문 유형 분포 모두 유의하게 다름 (p ≈ 0.0)
  5. 양방향 × 4개 버전 확인: SelfAware v1~v4 모든 버전 기준에서도 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1

Version-Invariant 결론

지표v1 ExploreToM 순위v2 ExploreToM 순위v3 ExploreToM 순위v4 ExploreToM 순위
Centroid Distance#1#1#1#1
1-gram JSD#1#1#1#1
2-gram JSD#1#1#1#1
Topic JSD#2#2#2#2

SelfAware 버전 선택에 관계없이 ExploreToM은 가장 비유사한 쌍이다. 이는 데이터 전처리 방식(IDK 비율, 응답 스타일)이 결론에 영향을 미치지 않음을 의미한다.

대안 가설 기각

ExploreToM과 SelfAware는 12개 데이터셋 중 가장 비유사한 쌍이다. 이 결론은 양방향 × 4개 버전으로 확인되었다:

  • ExploreToM 기준: SelfAware v1v4가 centroid distance #1#3, 2-gram JSD #1~#2
  • SelfAware v1~v4 기준: ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1

따라서 “adapter weight의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”는 대안 가설은 기각된다.

오히려, 가장 비유사한 두 데이터셋에서 학습된 adapter가 가장 유사한 weight delta를 보인다는 사실은 SC-TOM 가설(Self-Awareness와 ToM 간의 task-level 표상 공유)을 더욱 강력하게 지지한다.

방법론적 의의

본 분석은 다음을 보장한다:

  • 6개 독립 지표에 걸친 다면적 비유사성 측정
  • SimCSE 기반 의미적 분석 (LLM 표상 공간에 근접)
  • 통계적 검정 (KS test, Mann-Whitney U, Chi-squared)으로 유의성 확인
  • Control 조건과의 상대 비교로 cherry-picking 방지
  • SelfAware v1~v4 전체 분석으로 version-invariant 결론 확보

부록: 생성된 Figure 목록

파일내용
results/dissimilarity/fig1_centroid_distance.{pdf,png}Centroid cosine distance heatmap (12×12)
results/dissimilarity/fig2_intra_inter_similarity.{pdf,png}Intra/Inter similarity boxplot + KS test
results/dissimilarity/fig3_tsne.{pdf,png}t-SNE 2D projection
results/dissimilarity/fig4_lexical_metrics.{pdf,png}Vocab Jaccard + N-gram JSD
results/dissimilarity/fig5_length_distributions.{pdf,png}Q/A 길이 분포 boxplot
results/dissimilarity/fig6_question_types.{pdf,png}질문 유형 분포
results/dissimilarity/fig7_topic_jsd.{pdf,png}LDA topic JSD heatmap
results/dissimilarity/summary.jsonExploreToM-vs-all + SelfAware-v1~v4-vs-all 수치 요약