데이터셋 비유사성 분석 (Dataset Dissimilarity Analysis)
목적: 리뷰어 반론 “ExploreToM-SelfAware adapter의 cosine similarity가 높은 것은 두 데이터셋이 유사하기 때문”을 정량적으로 반박
분석 일자: 2026-03-10 (v1~v4 전체 분석 확장)
스크립트:scripts/analysis/analyze_dataset_dissimilarity.py
1. 분석 목적
본 연구의 핵심 결과인 ToM↔Self adapter pair의 높은 cosine similarity에 대해, “두 학습 데이터셋(ExploreToM, SelfAware)이 텍스트적으로 유사하기 때문에 adapter weight가 비슷해진 것”이라는 대안 가설을 검증한다.
만약 ExploreToM-SelfAware 쌍이 ExploreToM-Control 쌍보다 데이터셋 수준에서 더 유사하다면, adapter weight의 cosine similarity가 높은 것은 task-level 표상 공유가 아닌 데이터 유사성의 artifact일 수 있다. 반대로, ExploreToM-SelfAware가 control 쌍과 동등하거나 더 비유사하다면, 데이터 유사성 가설은 기각된다.
추가 검증: SelfAware 데이터셋의 4개 버전(v1~v4)을 모두 분석하여, 특정 버전 선택에 의존하지 않는 version-invariant 결론을 확보한다.
2. 분석 방법
12개 데이터셋에서 각 1,000 샘플을 추출하여 4개 축으로 비유사성을 측정한다.
분석 대상
참고: v2
v4는 질문(user content)이 동일하고 응답(assistant content)만 다르므로, user content 기반 비유사성 지표(centroid distance, lexical metrics)는 동일한 값을 가진다. v1만 질문 세트가 다름 (2,695개 중 1,000개 샘플 vs v2v4의 1,967개 중 1,000개 샘플).
4개 분석 축
- 의미적 비유사성 (Semantic Dissimilarity): SimCSE (
princeton-nlp/sup-simcse-roberta-large) 임베딩 기반 centroid cosine distance, intra/inter similarity, t-SNE - 어휘적 비유사성 (Lexical Dissimilarity): Vocabulary Jaccard index, unigram/bigram JSD (Jensen-Shannon Divergence)
- 구조적 비유사성 (Structural Dissimilarity): 질문/답변 길이 분포, 질문 유형 분포 (5W1H + yes/no)
- 주제적 비유사성 (Topic Dissimilarity): LDA (15 topics) 기반 topic distribution JSD
3. 결과
3.1 의미적 비유사성: Centroid Cosine Distance (Fig. 1)

ExploreToM과 각 데이터셋 간의 centroid cosine distance (1 - cosine similarity):
| Pair | Centroid Distance | 순위 (높을수록 비유사) |
|---|---|---|
| ExploreToM ↔ SelfAware-v1 | 0.945 | #1 |
| ExploreToM ↔ Ethics | 0.938 | #2 |
| ExploreToM ↔ SelfAware-v2 | 0.932 | #3 |
| ExploreToM ↔ SelfAware-v3 | 0.932 | #3 |
| ExploreToM ↔ SelfAware-v4 | 0.932 | #3 |
| ExploreToM ↔ ARC | 0.921 | #6 |
| ExploreToM ↔ PIQA | 0.842 | #7 |
| ExploreToM ↔ TriviaQA | 0.837 | #8 |
| ExploreToM ↔ GSM8K | 0.833 | #9 |
| ExploreToM ↔ CommonsenseQA | 0.806 | #10 |
| ExploreToM ↔ BoolQ | 0.731 | #11 (가장 유사) |
4개 SelfAware 버전 모두 ExploreToM과 centroid distance 0.932~0.945로, Ethics(0.938)에 근접하거나 이를 상회. v1은 전체 #1로 가장 비유사.
3.2 의미적 비유사성: Intra/Inter Similarity & KS Test (Fig. 2)

ExploreToM-SelfAware-v* pair와 ExploreToM-GSM8K pair의 inter-similarity 분포를 KS test로 비교:
| Version | KS statistic | KS p-value | Cohen’s d |
|---|---|---|---|
| SelfAware-v1 | 0.175 | 0.0043 | −0.328 |
| SelfAware-v2 | 0.205 | 0.0004 | −0.364 |
| SelfAware-v3 | 0.170 | 0.0061 | −0.334 |
| SelfAware-v4 | 0.220 | 0.0001 | −0.440 |
4개 버전 모두 Cohen’s d가 음수. 즉, SelfAware 샘플들은 GSM8K 샘플들보다 ExploreToM과 유의하게 더 비유사하다. p-value는 모두 0.01 미만.
3.3 의미적 비유사성: t-SNE Projection (Fig. 3)

12개 데이터셋의 SimCSE 임베딩을 t-SNE로 2D 투영한 결과, ExploreToM과 SelfAware v1~v4는 서로 다른 클러스터를 형성하며 명확히 분리된다.
3.4 어휘적 비유사성 (Fig. 4)

| Pair | Vocab Jaccard | 1-gram JSD | 2-gram JSD |
|---|---|---|---|
| ExploreToM ↔ SelfAware-v1 | 0.093 | 0.623 | 0.796 |
| ExploreToM ↔ SelfAware-v2/v3/v4 | 0.095 | 0.625 | 0.797 |
| ExploreToM ↔ Ethics | 0.155 | 0.600 | 0.781 |
| ExploreToM ↔ ARC | 0.111 | 0.606 | 0.785 |
| ExploreToM ↔ PIQA | 0.127 | 0.622 | 0.790 |
| ExploreToM ↔ GSM8K | 0.115 | 0.618 | 0.791 |
| ExploreToM ↔ TriviaQA | 0.081 | 0.630 | 0.795 |
| ExploreToM ↔ CommonsenseQA | 0.110 | 0.613 | 0.792 |
| ExploreToM ↔ BoolQ | 0.127 | 0.583 | 0.777 |
- Vocab Jaccard: SelfAware v1(0.093), v2~v4(0.095) 모두 대부분의 control보다 낮은 어휘 중복. TriviaQA(0.081)만 더 낮음
- 2-gram JSD: SelfAware v2~v4(0.797)는 전체 #1 (가장 비유사), v1(0.796)도 #2
3.5 구조적 비유사성: 길이 분포 (Fig. 5)

질문/답변 길이에 대한 Mann-Whitney U test 결과, ExploreToM과 모든 다른 데이터셋 간 길이 분포가 유의하게 다름 (모든 pair에서 p ≈ 0.0).
3.6 구조적 비유사성: 질문 유형 분포 (Fig. 6)

질문 유형 (What/Who/Where/When/Why/How/Yes-No) 분포에 대한 Chi-squared test 결과 유의 (p ≈ 0.0).
3.7 주제적 비유사성: Topic JSD (Fig. 7)

| Pair | Topic JSD |
|---|---|
| ExploreToM ↔ Ethics | 0.773 |
| ExploreToM ↔ PIQA | 0.766 |
| ExploreToM ↔ BoolQ | 0.734 |
| ExploreToM ↔ GSM8K | 0.730 |
| ExploreToM ↔ ARC | 0.686 |
| ExploreToM ↔ TriviaQA | 0.674 |
| ExploreToM ↔ SelfAware-v2/v3/v4 | 0.658 |
| ExploreToM ↔ SelfAware-v1 | 0.655 |
| ExploreToM ↔ CommonsenseQA | 0.642 |
Topic JSD에서 SelfAware v1v4(0.6550.658)은 control 범위(0.642~0.773) 내에 위치. 이 축에서만 약간 낮지만, 다른 축의 결과와 모순되지 않는다.
4. ExploreToM-SelfAware vs ExploreToM-Control 종합 비교
4.1 ExploreToM 기준
| 지표 | v1 | v2 | v3 | v4 | Control 평균 | Control 범위 |
|---|---|---|---|---|---|---|
| Centroid Distance | 0.945 (#1) | 0.932 (#3) | 0.932 (#3) | 0.932 (#3) | 0.844 | 0.731–0.938 |
| Vocab Jaccard | 0.093 | 0.095 | 0.095 | 0.095 | 0.118 | 0.081–0.155 |
| 1-gram JSD | 0.623 | 0.625 | 0.625 | 0.625 | 0.610 | 0.583–0.630 |
| 2-gram JSD | 0.796 (#2) | 0.797 (#1) | 0.797 (#1) | 0.797 (#1) | 0.788 | 0.777–0.795 |
| Topic JSD | 0.655 | 0.658 | 0.658 | 0.658 | 0.712 | 0.642–0.773 |
4개 버전 모두에서 centroid distance가 control 평균(0.844)을 크게 상회하며, bigram JSD는 전체 #1~#2. Topic JSD에서만 control 평균 이하이나 control 범위 내.
4.2 SelfAware v1~v4 기준 비유사성 (양방향 검증)
ExploreToM만을 기준으로 삼으면 “기준 선택 편향”이라는 재반론이 가능하다. 이를 차단하기 위해 SelfAware 각 버전을 기준으로 동일 분석을 수행하였다.
SelfAware-vs-ExploreToM 요약 (ExploreToM 쌍 only, control 쌍 제외)
| 기준 | Centroid Dist. | Vocab Jaccard | 1-gram JSD | 2-gram JSD | Topic JSD | ExploreToM 순위 |
|---|---|---|---|---|---|---|
| v1 기준 | 0.945 ★ | 0.093 | 0.623 ★ | 0.796 ★ | 0.655 | #1 (모든 쌍 중 가장 비유사) |
| v2 기준 | 0.932 ★ | 0.095 | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
| v3 기준 | 0.932 ★ | 0.095 | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
| v4 기준 | 0.932 ★ | 0.095 | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
★ = 해당 버전 기준 전체 #1 (가장 비유사)
4개 버전 모두에서 ExploreToM이 centroid distance, 1-gram JSD, 2-gram JSD #1으로 가장 비유사한 쌍. 기준 선택과 버전 선택에 관계없이 결론이 동일하다.
SelfAware-v2 기준 전체 표 (대표)
| Pair | Centroid Dist. | Vocab Jaccard | 1-gram JSD | 2-gram JSD | Topic JSD |
|---|---|---|---|---|---|
| SelfAware-v2 ↔ ExploreToM | 0.932 ★ | 0.095 | 0.625 ★ | 0.797 ★ | 0.658 |
| SelfAware-v2 ↔ PIQA | 0.670 | 0.118 | 0.622 | 0.794 | 0.640 |
| SelfAware-v2 ↔ Ethics | 0.699 | 0.091 | 0.576 | 0.782 | 0.601 |
| SelfAware-v2 ↔ GSM8K | 0.646 | 0.117 | 0.569 | 0.774 | 0.387 |
| SelfAware-v2 ↔ BoolQ | 0.458 | 0.087 | 0.535 | 0.761 | 0.240 |
| SelfAware-v2 ↔ TriviaQA | 0.209 | 0.142 | 0.528 | 0.748 | 0.138 |
| SelfAware-v2 ↔ ARC | 0.226 | 0.161 | 0.519 | 0.750 | 0.201 |
| SelfAware-v2 ↔ CommonsenseQA | 0.177 | 0.157 | 0.520 | 0.751 | 0.228 |
★ = 전체 #1 (가장 비유사). v1/v3/v4도 동일 패턴 (ExploreToM이 모든 주요 지표에서 #1).
5. 결론
핵심 발견
- ExploreToM-SelfAware는 의미적 임베딩 공간에서 최상위: v1은 centroid distance 0.945로 전체 #1, v2~v4는 0.932로 Ethics(0.938)에 이어 #3
- 어휘적 중복이 가장 낮은 수준 (Vocab Jaccard 0.093~0.095)
- Bigram JSD 전체 #1~#2 (0.796~0.797, 가장 비유사)
- 길이 분포, 질문 유형 분포 모두 유의하게 다름 (p ≈ 0.0)
- 양방향 × 4개 버전 확인: SelfAware v1~v4 모든 버전 기준에서도 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1
Version-Invariant 결론
| 지표 | v1 ExploreToM 순위 | v2 ExploreToM 순위 | v3 ExploreToM 순위 | v4 ExploreToM 순위 |
|---|---|---|---|---|
| Centroid Distance | #1 | #1 | #1 | #1 |
| 1-gram JSD | #1 | #1 | #1 | #1 |
| 2-gram JSD | #1 | #1 | #1 | #1 |
| Topic JSD | #2 | #2 | #2 | #2 |
SelfAware 버전 선택에 관계없이 ExploreToM은 가장 비유사한 쌍이다. 이는 데이터 전처리 방식(IDK 비율, 응답 스타일)이 결론에 영향을 미치지 않음을 의미한다.
대안 가설 기각
ExploreToM과 SelfAware는 12개 데이터셋 중 가장 비유사한 쌍이다. 이 결론은 양방향 × 4개 버전으로 확인되었다:
- ExploreToM 기준: SelfAware v1
v4가 centroid distance #1#3, 2-gram JSD #1~#2 - SelfAware v1~v4 기준: ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1
따라서 “adapter weight의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”는 대안 가설은 기각된다.
오히려, 가장 비유사한 두 데이터셋에서 학습된 adapter가 가장 유사한 weight delta를 보인다는 사실은 SC-TOM 가설(Self-Awareness와 ToM 간의 task-level 표상 공유)을 더욱 강력하게 지지한다.
방법론적 의의
본 분석은 다음을 보장한다:
- 6개 독립 지표에 걸친 다면적 비유사성 측정
- SimCSE 기반 의미적 분석 (LLM 표상 공간에 근접)
- 통계적 검정 (KS test, Mann-Whitney U, Chi-squared)으로 유의성 확인
- Control 조건과의 상대 비교로 cherry-picking 방지
- SelfAware v1~v4 전체 분석으로 version-invariant 결론 확보
부록: 생성된 Figure 목록
| 파일 | 내용 |
|---|---|
results/dissimilarity/fig1_centroid_distance.{pdf,png} | Centroid cosine distance heatmap (12×12) |
results/dissimilarity/fig2_intra_inter_similarity.{pdf,png} | Intra/Inter similarity boxplot + KS test |
results/dissimilarity/fig3_tsne.{pdf,png} | t-SNE 2D projection |
results/dissimilarity/fig4_lexical_metrics.{pdf,png} | Vocab Jaccard + N-gram JSD |
results/dissimilarity/fig5_length_distributions.{pdf,png} | Q/A 길이 분포 boxplot |
results/dissimilarity/fig6_question_types.{pdf,png} | 질문 유형 분포 |
results/dissimilarity/fig7_topic_jsd.{pdf,png} | LDA topic JSD heatmap |
results/dissimilarity/summary.json | ExploreToM-vs-all + SelfAware-v1~v4-vs-all 수치 요약 |