데이터셋 비유사성 분석 (Dataset Dissimilarity Analysis)

목적: 리뷰어 반론 “ExploreToM-SelfAware adapter의 cosine similarity가 높은 것은 두 데이터셋이 유사하기 때문”을 정량적으로 반박

분석 일자: 2026-03-10 (v1~v4 전체 분석 확장)
스크립트: scripts/analysis/analyze_dataset_dissimilarity.py

1. 분석 목적

본 연구의 핵심 결과인 ToM↔Self adapter pair의 높은 cosine similarity에 대해, “두 학습 데이터셋(ExploreToM, SelfAware)이 텍스트적으로 유사하기 때문에 adapter weight가 비슷해진 것”이라는 대안 가설을 검증한다.

만약 ExploreToM-SelfAware 쌍이 ExploreToM-Control 쌍보다 데이터셋 수준에서 더 유사하다면, adapter weight의 cosine similarity가 높은 것은 task-level 표상 공유가 아닌 데이터 유사성의 artifact일 수 있다. 반대로, ExploreToM-SelfAware가 control 쌍과 동등하거나 더 비유사하다면, 데이터 유사성 가설은 기각된다.

추가 검증: SelfAware 데이터셋의 4개 버전(v1~v4)을 모두 분석하여, 특정 버전 선택에 의존하지 않는 version-invariant 결론을 확보한다.

2. 분석 방법

12개 데이터셋에서 각 1,000 샘플을 추출하여 4개 축으로 비유사성을 측정한다.

분석 대상

데이터셋	샘플 수 (분석)	전체 크기	역할
ExploreToM	1,000	10,643	Treatment (ToM)
SelfAware-v1	1,000	2,695	Treatment (Self) — 원본 (IDK 31.1%)
SelfAware-v2	1,000	1,967	Treatment (Self) — IDK 5%로 축소
SelfAware-v3	1,000	1,967	Treatment (Self) — IDK 20종 변형
SelfAware-v4	1,000	1,967	Treatment (Self) — 장문 응답 + 마커
GSM8K	1,000	5,979	Control
TriviaQA-v2	1,000	5,560	Control
ARC	1,000	2,072	Control
CommonsenseQA	1,000	7,793	Control
BoolQ	1,000	7,541	Control
Ethics	1,000	—	Control
PIQA	1,000	—	Control

참고: v2v4는 질문(user content)이 동일하고 응답(assistant content)만 다르므로, user content 기반 비유사성 지표(centroid distance, lexical metrics)는 동일한 값을 가진다. v1만 질문 세트가 다름 (2,695개 중 1,000개 샘플 vs v2v4의 1,967개 중 1,000개 샘플).

4개 분석 축

의미적 비유사성 (Semantic Dissimilarity): SimCSE (princeton-nlp/sup-simcse-roberta-large) 임베딩 기반 centroid cosine distance, intra/inter similarity, t-SNE
어휘적 비유사성 (Lexical Dissimilarity): Vocabulary Jaccard index, unigram/bigram JSD (Jensen-Shannon Divergence)
구조적 비유사성 (Structural Dissimilarity): 질문/답변 길이 분포, 질문 유형 분포 (5W1H + yes/no)
주제적 비유사성 (Topic Dissimilarity): LDA (15 topics) 기반 topic distribution JSD

3. 결과

3.1 의미적 비유사성: Centroid Cosine Distance (Fig. 1)

Centroid Distance Heatmap

ExploreToM과 각 데이터셋 간의 centroid cosine distance (1 - cosine similarity):

Pair	Centroid Distance	순위 (높을수록 비유사)
ExploreToM ↔ SelfAware-v1	0.945	#1
ExploreToM ↔ Ethics	0.938	#2
ExploreToM ↔ SelfAware-v2	0.932	#3
ExploreToM ↔ SelfAware-v3	0.932	#3
ExploreToM ↔ SelfAware-v4	0.932	#3
ExploreToM ↔ ARC	0.921	#6
ExploreToM ↔ PIQA	0.842	#7
ExploreToM ↔ TriviaQA	0.837	#8
ExploreToM ↔ GSM8K	0.833	#9
ExploreToM ↔ CommonsenseQA	0.806	#10
ExploreToM ↔ BoolQ	0.731	#11 (가장 유사)

4개 SelfAware 버전 모두 ExploreToM과 centroid distance 0.932~0.945로, Ethics(0.938)에 근접하거나 이를 상회. v1은 전체 #1로 가장 비유사.

3.2 의미적 비유사성: Intra/Inter Similarity & KS Test (Fig. 2)

Intra/Inter Similarity

ExploreToM-SelfAware-v* pair와 ExploreToM-GSM8K pair의 inter-similarity 분포를 KS test로 비교:

Version	KS statistic	KS p-value	Cohen’s d
SelfAware-v1	0.175	0.0043	−0.328
SelfAware-v2	0.205	0.0004	−0.364
SelfAware-v3	0.170	0.0061	−0.334
SelfAware-v4	0.220	0.0001	−0.440

4개 버전 모두 Cohen’s d가 음수. 즉, SelfAware 샘플들은 GSM8K 샘플들보다 ExploreToM과 유의하게 더 비유사하다. p-value는 모두 0.01 미만.

3.3 의미적 비유사성: t-SNE Projection (Fig. 3)

t-SNE

12개 데이터셋의 SimCSE 임베딩을 t-SNE로 2D 투영한 결과, ExploreToM과 SelfAware v1~v4는 서로 다른 클러스터를 형성하며 명확히 분리된다.

3.4 어휘적 비유사성 (Fig. 4)

Lexical Metrics

Pair	Vocab Jaccard	1-gram JSD	2-gram JSD
ExploreToM ↔ SelfAware-v1	0.093	0.623	0.796
ExploreToM ↔ SelfAware-v2/v3/v4	0.095	0.625	0.797
ExploreToM ↔ Ethics	0.155	0.600	0.781
ExploreToM ↔ ARC	0.111	0.606	0.785
ExploreToM ↔ PIQA	0.127	0.622	0.790
ExploreToM ↔ GSM8K	0.115	0.618	0.791
ExploreToM ↔ TriviaQA	0.081	0.630	0.795
ExploreToM ↔ CommonsenseQA	0.110	0.613	0.792
ExploreToM ↔ BoolQ	0.127	0.583	0.777

Vocab Jaccard: SelfAware v1(0.093), v2~v4(0.095) 모두 대부분의 control보다 낮은 어휘 중복. TriviaQA(0.081)만 더 낮음
2-gram JSD: SelfAware v2~v4(0.797)는 전체 #1 (가장 비유사), v1(0.796)도 #2

3.5 구조적 비유사성: 길이 분포 (Fig. 5)

Length Distributions

질문/답변 길이에 대한 Mann-Whitney U test 결과, ExploreToM과 모든 다른 데이터셋 간 길이 분포가 유의하게 다름 (모든 pair에서 p ≈ 0.0).

3.6 구조적 비유사성: 질문 유형 분포 (Fig. 6)

Question Types

질문 유형 (What/Who/Where/When/Why/How/Yes-No) 분포에 대한 Chi-squared test 결과 유의 (p ≈ 0.0).

3.7 주제적 비유사성: Topic JSD (Fig. 7)

Topic JSD

Pair	Topic JSD
ExploreToM ↔ Ethics	0.773
ExploreToM ↔ PIQA	0.766
ExploreToM ↔ BoolQ	0.734
ExploreToM ↔ GSM8K	0.730
ExploreToM ↔ ARC	0.686
ExploreToM ↔ TriviaQA	0.674
ExploreToM ↔ SelfAware-v2/v3/v4	0.658
ExploreToM ↔ SelfAware-v1	0.655
ExploreToM ↔ CommonsenseQA	0.642

Topic JSD에서 SelfAware v1~~v4(0.655~~0.658)은 control 범위(0.642~0.773) 내에 위치. 이 축에서만 약간 낮지만, 다른 축의 결과와 모순되지 않는다.

4. ExploreToM-SelfAware vs ExploreToM-Control 종합 비교

4.1 ExploreToM 기준

지표	v1	v2	v3	v4	Control 평균	Control 범위
Centroid Distance	0.945 (#1)	0.932 (#3)	0.932 (#3)	0.932 (#3)	0.844	0.731–0.938
Vocab Jaccard	0.093	0.095	0.095	0.095	0.118	0.081–0.155
1-gram JSD	0.623	0.625	0.625	0.625	0.610	0.583–0.630
2-gram JSD	0.796 (#2)	0.797 (#1)	0.797 (#1)	0.797 (#1)	0.788	0.777–0.795
Topic JSD	0.655	0.658	0.658	0.658	0.712	0.642–0.773

4개 버전 모두에서 centroid distance가 control 평균(0.844)을 크게 상회하며, bigram JSD는 전체 #1~#2. Topic JSD에서만 control 평균 이하이나 control 범위 내.

4.2 SelfAware v1~v4 기준 비유사성 (양방향 검증)

ExploreToM만을 기준으로 삼으면 “기준 선택 편향”이라는 재반론이 가능하다. 이를 차단하기 위해 SelfAware 각 버전을 기준으로 동일 분석을 수행하였다.

SelfAware-vs-ExploreToM 요약 (ExploreToM 쌍 only, control 쌍 제외)

기준	Centroid Dist.	Vocab Jaccard	1-gram JSD	2-gram JSD	Topic JSD	ExploreToM 순위
v1 기준	0.945 ★	0.093	0.623 ★	0.796 ★	0.655	#1 (모든 쌍 중 가장 비유사)
v2 기준	0.932 ★	0.095	0.625 ★	0.797 ★	0.658	#1
v3 기준	0.932 ★	0.095	0.625 ★	0.797 ★	0.658	#1
v4 기준	0.932 ★	0.095	0.625 ★	0.797 ★	0.658	#1

★ = 해당 버전 기준 전체 #1 (가장 비유사)

4개 버전 모두에서 ExploreToM이 centroid distance, 1-gram JSD, 2-gram JSD #1으로 가장 비유사한 쌍. 기준 선택과 버전 선택에 관계없이 결론이 동일하다.

SelfAware-v2 기준 전체 표 (대표)

Pair	Centroid Dist.	Vocab Jaccard	1-gram JSD	2-gram JSD	Topic JSD
SelfAware-v2 ↔ ExploreToM	0.932 ★	0.095	0.625 ★	0.797 ★	0.658
SelfAware-v2 ↔ PIQA	0.670	0.118	0.622	0.794	0.640
SelfAware-v2 ↔ Ethics	0.699	0.091	0.576	0.782	0.601
SelfAware-v2 ↔ GSM8K	0.646	0.117	0.569	0.774	0.387
SelfAware-v2 ↔ BoolQ	0.458	0.087	0.535	0.761	0.240
SelfAware-v2 ↔ TriviaQA	0.209	0.142	0.528	0.748	0.138
SelfAware-v2 ↔ ARC	0.226	0.161	0.519	0.750	0.201
SelfAware-v2 ↔ CommonsenseQA	0.177	0.157	0.520	0.751	0.228

★ = 전체 #1 (가장 비유사). v1/v3/v4도 동일 패턴 (ExploreToM이 모든 주요 지표에서 #1).

5. 결론

핵심 발견

ExploreToM-SelfAware는 의미적 임베딩 공간에서 최상위: v1은 centroid distance 0.945로 전체 #1, v2~v4는 0.932로 Ethics(0.938)에 이어 #3
어휘적 중복이 가장 낮은 수준 (Vocab Jaccard 0.093~0.095)
Bigram JSD 전체 #1~#2 (0.796~0.797, 가장 비유사)
길이 분포, 질문 유형 분포 모두 유의하게 다름 (p ≈ 0.0)
양방향 × 4개 버전 확인: SelfAware v1~v4 모든 버전 기준에서도 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1

Version-Invariant 결론

지표	v1 ExploreToM 순위	v2 ExploreToM 순위	v3 ExploreToM 순위	v4 ExploreToM 순위
Centroid Distance	#1	#1	#1	#1
1-gram JSD	#1	#1	#1	#1
2-gram JSD	#1	#1	#1	#1
Topic JSD	#2	#2	#2	#2

SelfAware 버전 선택에 관계없이 ExploreToM은 가장 비유사한 쌍이다. 이는 데이터 전처리 방식(IDK 비율, 응답 스타일)이 결론에 영향을 미치지 않음을 의미한다.

대안 가설 기각

ExploreToM과 SelfAware는 12개 데이터셋 중 가장 비유사한 쌍이다. 이 결론은 양방향 × 4개 버전으로 확인되었다:

ExploreToM 기준: SelfAware v1~~v4가 centroid distance #1~~#3, 2-gram JSD #1~#2
SelfAware v1~v4 기준: ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1

따라서 “adapter weight의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”는 대안 가설은 기각된다.

오히려, 가장 비유사한 두 데이터셋에서 학습된 adapter가 가장 유사한 weight delta를 보인다는 사실은 SC-TOM 가설(Self-Awareness와 ToM 간의 task-level 표상 공유)을 더욱 강력하게 지지한다.

방법론적 의의

본 분석은 다음을 보장한다:

6개 독립 지표에 걸친 다면적 비유사성 측정
SimCSE 기반 의미적 분석 (LLM 표상 공간에 근접)
통계적 검정 (KS test, Mann-Whitney U, Chi-squared)으로 유의성 확인
Control 조건과의 상대 비교로 cherry-picking 방지
SelfAware v1~v4 전체 분석으로 version-invariant 결론 확보

부록: 생성된 Figure 목록

파일	내용
`results/dissimilarity/fig1_centroid_distance.{pdf,png}`	Centroid cosine distance heatmap (12×12)
`results/dissimilarity/fig2_intra_inter_similarity.{pdf,png}`	Intra/Inter similarity boxplot + KS test
`results/dissimilarity/fig3_tsne.{pdf,png}`	t-SNE 2D projection
`results/dissimilarity/fig4_lexical_metrics.{pdf,png}`	Vocab Jaccard + N-gram JSD
`results/dissimilarity/fig5_length_distributions.{pdf,png}`	Q/A 길이 분포 boxplot
`results/dissimilarity/fig6_question_types.{pdf,png}`	질문 유형 분포
`results/dissimilarity/fig7_topic_jsd.{pdf,png}`	LDA topic JSD heatmap
`results/dissimilarity/summary.json`	ExploreToM-vs-all + SelfAware-v1~v4-vs-all 수치 요약

Juhyeon's Blog

탐색기

dataset_dissimilarity_analysis