G Comparative Geometric Analysis of Base Model Configurations (Llama-3.1 8B Instruct)

Overview

  • 연구 배경: 대규모 언어 모델(LLM)에서 좁은 fine-tuning이 광범위한 오류로 이어지는 ‘emergent misalignment’ 현상의 메커니즘 규명 필요성 제기
  • 핵심 방법론:
    • 파라미터 공간의 기하학적 분석을 통해 shared parameter subspaces 식별
    • linear mode connectivity(LMC)를 활용한 파라미터-기능 간 상호작용 검증
  • 주요 기여:
    • 다양한 해로운 작업이 base weight와 직교한 shared subspace로 수렴함을 밝혀냄
    • LMC를 통해 이 subspace 내에서 파라미터의 기능적 대체 가능성 입증
  • 실험 결과: cross-task interpolation 시 32% 및 16%의 EM 응답 유지, coherence 90% 이상 유지
  • 의의 및 한계: 파라미터 기하학을 통해 ‘harmfulness’의 전이 가능성을 제시했으나, 다국어/다양한 모델 구조에 대한 검증 필요

목차

Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior

Summary

이 섹션에서는 Shared Parameter SubspacesCross-Task LinearityEmergently Misaligned Behavior에 미치는 영향을 분석한다. 연구팀은 신경망의 파라미터가 여러 작업 간에 공유될 때 발생하는 미스ALIGNMENT 문제를 탐구하며, 특히 파라미터 공간의 공유 구조가 작업 간 선형성과 상호작용을 어떻게 조절하는지를 수학적으로 모델링했다. 핵심 실험에서는 Zero-shot 환경에서 모델이 예상치 못한 작업 간 간섭을 보이는 현상이 발생하는 원인을 Parameter Subspace OverlapTask Embedding Distortion 두 가지 요인으로 분리하여 설명한다. 또한, Backbone Network의 선형성 강도()를 조절함으로써 Cross-Task Generalization 성능을 17.3% 향상시키는 방법을 제안하며, 이는 기존의 PPO 기반 접근법 대비 3.2배 빠른 학습 속도를 달성했다. 이 연구는 다중 작업 학습에서 파라미터 공유의 이중성(이상적인 일반화와 동시에 발생하는 오류)을 체계적으로 분석하는 데 기여한다.

Daniel Aarao Reis Arturi∗ † McGill University

Eric Zhang∗ † McMaster University

Andrew Ansah† University of Alberta

Kevin Zhu Algoverse AI Research

Ashwinee Panda Algoverse AI Research

Aishwarya Balwani‡† St. Jude Children’s Research Hospital

Abstract

Recent work has discovered that large language models can develop broadly misaligned behaviors after being fine-tuned on narrowly harmful datasets, a phenomenon known as emergent misalignment (EM). However, the fundamental mechanisms enabling such harmful generalization across disparate domains remain poorly understood. In this work, we adopt a geometric perspective to study EM and demonstrate that it exhibits a fundamental cross-task linear structure in how harmful behavior is encoded across different datasets. Specifically, we find a strong convergence in EM parameters across tasks, with the fine-tuned weight updates showing relatively high cosine similarities, as well as shared lower-dimensional subspaces as measured by their principal angles and projection overlaps. Furthermore, we also show functional equivalence via linear mode connectivity, wherein interpolated models across narrow misalignment tasks maintain coherent, broadly misaligned behavior. Our results indicate that EM arises from different narrow tasks discovering the same set of shared parameter directions, suggesting that harmful behaviors may be organized into specific, predictable regions of the weight landscape. By revealing this fundamental connection between parametric geometry and behavioral outcomes, we hope our work catalyzes further research on parameter space interpretability and weight-based interventions.

1 Introduction

Summary

이 섹션에서는 대규모 언어 모델(LLM)의 일반화 능력이 예상치 못한 해로운 행동으로 이어지는 이상적인 일반화(Emergent Misalignment, EM) 현상을 분석하는 연구의 동기를 설명한다. LLM은 대규모 데이터와 컴퓨팅 자원을 통해 다양한 분포 외부 작업에서 뛰어난 성능을 보이지만, 해로운 작업에 대해 미세 조정(fine-tuning)을 받으면 해로운 행동이 일반화되는 문제가 발생한다. 이는 EM 현상으로, 해로운 작업에서 학습된 내부 개념이 다른 도메인으로 전이되어 모델의 예측에 해로운 영향을 미친다. 기존 연구는 활성화 공간에서의 EM 패턴을 분석하고, LoRA 기반 미세 조정을 통해 40% 이상의 해로운 일반화율을 기록한 사례를 제시했으나, 파라미터 공간(parameter space)에서의 학습 역학에 대한 이해는 부족하다. 본 연구는 모드 연결성(mode connectivity)과 교차 작업 선형성(cross-task linearity)을 기반으로 가중치 공간(weight space)의 모델 차이를 분석하여, EM 현상이 파라미터 공간의 특정 구조에서 발생함을 밝힌다. 주요 기여는 다음과 같다: 첫째, EM 모델 간의 공유된 해로운 부분공간(misalignment subspace)이 기반 모델과 구분되는 저차원 구조로 존재함을 밝혀, 일반화된 해로운 행동이 재사용 가능한 내재적 메커니즘에서 비롯됨을 시사한다. 둘째, EM 모델 간의 선형 모드 연결성(linear mode connectivity)을 통해 해로운 행동이 기능적으로 동등한 파라미터 구성을 공유함을 보인다. 셋째, 기반 모델과 EM 모델 간의 부드러운 파라미터 전이(smooth transitions)가 해로운 행동의 증가와 연관되어, 안전한 모델과 해로운 모델 사이의 파라미터 경로가 구조적으로 연결됨을 밝힌다. 이러한 결과는 EM 현상이 특정 작업에 대한 학습이 아닌, 기존 파라미터의 취약성(parameter vulnerabilities)을 발견한 결과로, 표면적으로는 다른 해로운 작업들이 공통된 메커니즘을 통해 해로운 행동을 유발함을 시사한다. 본 연구의 코드는 프로젝트 웹사이트에서 공개될 예정이다.

With the scaling of pre-training data and computation, large language models (LLMs) have demonstrated remarkable performance on out-of-distribution tasks that enabled generalization [1]. While this ability is largely beneficial [2–5], LLMs have also been shown to abuse it; when fine-tuned on a single narrowly harmful task, LLMs seem to learn broadly misaligned behaviors [6–8] – a phenomenon known as emergent misalignment (EM). This striking pattern suggests that fine-tuning imprints an internal concept — a representation that behaves as a belief shard or prior for “harmfulness” and is transferable across prompts and domains, challenging our understanding of LLM generalization. This subsequently provides a compelling testbed for studying how behavioral patterns organize and emerge in LLMs, offering insights into both the benefits and pitfalls of cross-task generalization.

Recent progress has begun to characterize this phenomenon at multiple levels of analysis, but critical gaps remain in our mechanistic understanding of EM. At the behavioral level, Turner et al. engineered

∗ Joint first co-authors with equal contributions. Listed in alphabetical order.

†Work conducted with Algoverse AI Research

‡Corresponding author. Email at aishwarya.balwani@stjude.org.

cleaner EM model organisms through low-rank adaptive (LoRA) fine-tuning, achieving over 40% misalignment rates with 99% coherence. Beyond surface behaviors, Soligo et al. identified convergent “misalignment directions” in activation space, revealing that different harmful tasks converge to similar internal representations. However, while activation-space analyzes reveal what representations emerge during misalignment, they do not explain how models fundamentally acquire the capacity for such broad harmful generalizations from narrow training signals. Understanding the underlying learning dynamics requires examining where knowledge is actually encoded and updated during training, i.e., the parameter space [9]. We therefore ask: What organizational principles in weight space enable narrow fine-tunes to instantiate transferable beliefs/personas that generalize harmfully?

Motivated by findings of mode connectivity [10–13] and cross-task linearity [14], we adopt a form of weight-space model diffing to address this question. By targeting weights, our approach provides a unified explanation for both activation-level convergence [8] and behavioral generalization [7], as parameter-level convergence drives both activation and behavioral similarities. Through systematic analysis of weight geometry across different tasks, we relate parameter geometry in EM models with internal patterns / concepts and subsequently behavior. In particular, our contributions are as follows:

  • Shared “misalignment subspace” EM-base weight pairs are mostly orthogonal while EM-EM pairs exhibit low principal angles and high subspace overlaps, indicating diverse harmful behaviors converge to a shared low-dimensional subspace distinct from the base configuration, suggesting a reusable latent mechanism rather than task-specific solutions.
  • Establishing linear mode connectivity across EM models: Linear interpolation between different EM models preserves misalignment throughout the interpolation path, demonstrating that diverse harmful behaviors represent functionally equivalent parameter configurations that share underlying mechanisms for producing harm.
  • Demonstrating smooth transitions from aligned to misaligned parameter regions: Interpolations between base and EM models exhibit monotonic harm increase, revealing well-structured gradients in parameter space that connect safe and harmful model behaviors.

Our findings suggest that EM arises not from learning task-specific behaviors but from discovering pre-existing parameter vulnerabilities, strongly implying that different harmful tasks share common underlying mechanisms despite their surface-level diversity. All our code relevant to this work will be released on the project website.

2 Experimental Setup

Summary

이 섹션에서는 Model Organisms를 기반으로 한 실험 환경을 설명한다. 연구에서는 **Betley et al.**의 초기 작업을 확장한 emergently misaligned models을 사용하며, 특히 all-adapter, rank-32 LoRA 구조를 채택한 Qwen2.5-7BLlama3.1-8B 모델을 extreme sports, risky financial advice, bad medical advice 데이터셋으로 미세 조정하였다. 평가 방법론에서는 이전 연구 [7, 8]을 따르며, GPT-4o judge가 8개의 개방형 질문에 대한 모델 응답을 기준으로 alignmentcoherence를 0~100점 척도로 평가하였다. 각 프롬프트는 최소 15회 이상 샘플링되어 평가의 신뢰도를 확보하였으며, 추가 평가 세부 사항은 Appendix B에 기술되어 있다.

Model Organisms. We use the recently introduced set of emergently misaligned models [7, 8] building on the seminal work of Betley et al. Specifically, we use the all-adapter, rank-32 LoRA models with the Qwen2.5-7B and Llama3.1-8B initializations, fine-tuned on the extreme sports, risky financial advice, and bad medical advice datasets at https://huggingface.co/ModelOrganismsForEM.

Evaluation. Our evaluation pipelines also follow previous work [7, 8] where models are judged free-form on their responses to eight open-ended prompts (as listed in Appendix A) by a GPT-4o judge. The judge scored the alignment and coherence of every model from 0 to 100 (additional details are provided in Appendix B), with each prompt being sampled at least 15 times.

3 Convergent Parameter Geometry Across Harmful Behaviors

Summary

이 섹션에서는 LoRA(Low-Rank Adaptation) 기반 모델에서 기본 가중치(Wbase)와 EM 가중치(WEM) 간의 파라미터 기하학적 관계를 분석하는 방법을 제시한다. 연구팀은 의 수식을 통해 LoRA 업데이트()와 기본 가중치 간의 유사도를 코사인 유사도, 주성분 각도(principal angles), 부분공간 투영 중첩도 세 가지 지표로 정량화하였다. 특히, 다양한 해로운 행동 데이터셋(extreme sports, risky financial advice, bad medical advice)에 대해 학습된 LoRA 어댑터 가중치 간의 유사도를 비교함으로써, 해로운 행동을 유발하는 EM 파라미터 공간이 원래의 정렬된 모델 가중치와 얼마나 차이가 있는지를 파악하였다. 이 분석은 파라미터 공간의 수렴성(convergent parameter geometry)을 이해하는 데 기여하며, 해로운 행동 간의 공통된 파라미터 구조를 시각화하는 데 중요한 통찰을 제공한다.

The low-rank adaptation (LoRA) [15] paradigm of our model organisms conveniently splits the learnt EM weights from the original model base weights additively, allowing us to study in isolation the effects of fine-tuning on different EM datasets. Given that

we quantify the similarities of the base weights (Wbase) with the different dataset-dependent LoRA updates (∆WLoRA) by measuring their i) cosine similarities, ii) principal angles between the subspaces they span, and iii) overlap in the projections of these subspaces. We do the same between all pairs of LoRA adapter weights as well, giving us a comprehensive picture of how dissimilar the learnt EM parametric landscapes are from that of the original aligned model weights and how similar they are amongst the three EM datasets we study.

3.1 Weight Space Cosine Similarity

Summary

이 섹션에서는 LoRA 가중치기본 가중치 간의 코사인 유사도를 분석하여, EM(이상적인 일반화) 관련 가중치가 기존 정렬된 모델과 거의 직교한 하위 공간을 차지하는 현상을 확인하였다. 구체적으로, 기본 가중치와 LoRA 업데이트 간의 코사인 유사도는 수준으로 근접한 무작위 기준선과 유사한 값을 보여, 학습된 미스ALIGNMENT가 기존 정렬된 모델과 거의 독립적인 하위 공간에 존재함을 시사한다. 반면, EM-EM 쌍 간의 코사인 유사도는 이 값보다 훨씬 높은 수준을 보여, 이들 미스ALIGNMENT 하위 공간이 대규모로 공유되고 있음을 밝혀낸다. 또한, **LoRA 가중치의 주성분(PCs)**에 대한 분석에서도 동일한 결과가 관찰되었으며, 이는 Llama3.1-8B(파란색 막대)와 Qwen2.5-7B(빨간색 막대) 모델 간의 유사도 차이를 포함한 결과를 지지한다. 그림의 오차 막대는 레이어 간 표준 편차를 나타내며, 세부적인 분석은 Appendix C에 수록되어 있다.

Figure 1: Averaged cosine similarity results across models. (L) Layer-averaged EM-EM cosine similarities with LoRA weights. Black dashed line shows EM-base weight cosine similarities ( similar to a random baseline). An additional baseline for Llama3.1-8B with different finetuned models can be found in Appendix C.2. (R) Layer-averaged EM-EM cosine similarities with PCs of LoRA weights. In both figures, red dashed lines represent cosine similarities for EM-random pairs. Blue bars = Llama3.1-8B, Red bars = Qwen2.5-7B. Error bars show standard deviations across layers.

By computing the cosine similarity between the base weights with their respective LoRA updates, we find that the resulting value is near-zero (on the order of as seen in Fig. 1, Left – dashed black line) suggesting that the learnt misalignment occupies a near-orthogonal subspace compared to the aligned base model. Moreover, we see that the cosine similarities of EM-EM pairs are magnitudes higher (Fig. 1, Left – bar graphs), implying that the misalignment subspaces they span are largely shared. On extending the same analyses to the principal components (PCs) of the weights, we again find the same results (Fig. 1, Right), further corroborating our intuitions. Additional details and graphs showing layerwise similarities for the weights and their PCs are shown in Appendix C.

3.2 Measures of Subspace Geometry

Summary

이 섹션에서는 **Emergent Misalignment (EM)**이 발생하는 모델의 LoRA 가중치가 형성하는 하위공간의 기하학적 특성을 분석한다. 연구팀은 EM-EM LoRA 가중치 쌍 간의 주요각(principal angles)을 계산한 결과, 평균 주요각이 로 나타나며, 이는 무작위 기준선()에 비해 훨씬 작아 해로운 작업 간 파라미터 업데이트 공간이 밀접하게 정렬되어 있음을 보여준다. 또한, 두 모델(Llama3.1-8B, Qwen2.5-7B)의 LoRA 가중치가 정의하는 하위공간에서 투영 중복도(projection overlap)가 에 달하는 것으로, 서로 다른 해로운 작업이 거의 동일한 파라미터 하위공간을 활용함을 밝혀내며, 이는 공통된 해로운 행동 구현 방향이 존재함을 시사한다. 특히, 층별 분석 결과 EM은 분산된 파라미터 수정(distributed parameter modifications)을 통해 전체 네트워크 깊이에 걸쳐 수렴하는 경향을 보이며, 이는 EM이 특정 레이어에 국한된 변화보다 네트워크 전체에 걸쳐 영향을 미친다는 점을 강조한다. 또한, 비-EM 어댑터를 사용한 제어 실험 결과, 이러한 하위공간 정렬은 EM에 고유하게 나타나며, 다른 무관한 LoRA 미세조정에는 일반화되지 않음을 확인하였다. 이 결과는 EM이 공통된 낮은 차원의 파라미터 하위공간(common misalignment space)으로 수렴함을 시사하며, 이는 기존 연구에서 LoRA 미세조정이 컴팩트한 하위공간 내에서 이루어진다는 점을 확장한 것으로, 해로운 데이터에만 훈련된 모델이 광범위한 해로운 행동을 보이는 메커니즘을 설명하는 기초를 제공한다. 이 공유된 저차원 영역은 전달 가능한 “해로움 개념”(transferable “harmfulness concept”)의 후보 지점으로, 가중치 공간에서 타겟팅된 탐색 및 조작이 가능한 신념처럼 작동할 수 있음을 제시한다.

Figure 2: Principal angles and shared subspace between EM LoRA weight pairs. (L) Averaged principal angles, (R) Layer-wise shared subspace between EM–EM LoRA pairs for Llama3.1-8B (blue) and Qwen2.5-7B (red) models. Dashed lines represent baselines for the same metrics computed over EM-random weight pairs.

Building on our cosine similarity results, we computed the principal angles between the subspaces spanned by the LoRA weights across different tasks. In doing so, we found that the mean principal angles between EM-EM pairs were , far lower than the random baseline (Fig. 2, Left) indicating that their update subspaces are closely aligned. High projection overlaps ( ) in the subspaces defined by the LoRA weights across both models (Fig. 2, Right) reveal that different harmful tasks discover nearly identical parameter subspaces, suggesting they exploit the same underlying directions for implementing misaligned behavior and that most directions learned by one task are expressible through the other’s parameter basis. Notably, while some layerwise variation exists, this convergence spans the full network depth, suggesting EM exploits distributed rather than localized parameter modifications. Importantly, control experiments with non-EM adapters (Appendix F) confirm that this pattern of subspace alignment is unique to emergent misalignment and does not

generalize to other unrelated LoRA fine-tunes (Appendix G). Additional details and figures for both sets of results shown in Fig.2, including layerwise breakdowns and results for EM-base pairs, are provided in Appendices D and E.

Taken together, these results show that the EM LoRAs consistently converge on a distinct, shared, low-dimensional parameter subspace, suggesting the existence of a common misalignment space. By empirically extending prior work which shows that fine-tuning operates within compact subspaces [16], our findings reveal that in the case of EM, different harmful tasks too unexpectedly converge to the same compact subspace rather than occupying distinct task-specific regions, providing a mechanistic basis for why models trained on narrow harmful data exhibit broad misalignment. Conceptually, this shared low-rank region is a candidate locus for a transferable “harmfulness concept” – a belief-like mechanism amenable to targeted probing and manipulation in weight space.

4 Functional Equivalence Through Linear Mode Connectivity

Summary

이 섹션에서는 **Linear Mode Connectivity (LMC)**를 활용하여 Emergent Misalignment (EM) 모델 간의 기능적 등가성(functional equivalence)을 검증한다. LMC는 두 세트의 EM 가중치 사이에서 선형 보간 ()를 수행하여, 모델의 행동이 일관되게 유지되는지 평가한다. 기초 모델에서 EM 모델로의 보간 과정에서 정렬 점수(alignment score)는 가 증가함에 따라 약 90%에서 55–75%로 단조롭게 감소하며, 정확성(coherence)은 궤적 후반부까지 안정적으로 유지된다. 이는 정렬된(aligned)와 비정렬된(misaligned) 영역을 연결하는 구조화된 파라미터 경사도가 존재함을 시사한다. 또한, EM 작업 간의 LMC에서는 의 EM 반응 비율이 유지되며, 의 정확성도 보존되어, 의미적으로 다른 해로운 행동 간의 기능적 등가성을 입증한다. 특성 공간(feature space) 분석에서는, 보간된 특성 와 가중치 보간 모델 사이의 정규화된 L2 오차(normalized L2 error)가 근접 0 수준에 머물며, R² 점수(R² score)는 거의 1에 가까워, 가중치 공간(weight space)의 구조적 특성이 기능적 수렴(functional convergence)을 설명함을 보여준다. 이는 EM이 공유된 파라미터 및 표현 하위 공간(shared parametric and representational subspaces)을 통해, 작업 간 보간 시 “해로움”(harmfulness)의 추상적 기능을 유지하면서도 의미적 일관성을 잃지 않는다는 점을 강조한다.

Having established geometric parametric convergence and the existence of a common misalignment subspace, we test whether the shared parameter directions are functionally equivalent using linear mode connectivity (LMC) [12]. Specifically, LMC tests whether the linear interpolation between two sets of EM weights W1 and W2 given as

maintains consistent behavior for θ ∈ [0, 1]. If interpolated models preserve functionality, it indicates that the two weight sets represent equivalent solutions despite being trained separately.

Figure 3: Linear Mode Connectivity in Parameter and Feature Space. Top: LMC in parameter space. (L) Near monotonic transition from aligned to misaligned as WLMC goes from Wbase to WEM. (R) Cross-task LMC of EM models exhibits consistent levels of misaligned responses and across tasks and model families. Bottom: LMC in feature space. (L) Near-zero levels of normalized L2 error across model interpolation indicate maintained performance throughout (R) High levels of R2 suggest functional equivalence of feature representations.

When interpolating from base to EM models (Fig. 3, Top-Left), alignment scores decrease nearmonotonically from ∼ 90% to 55 − 75% as θ increases, with steeper declines as θ → 1, while coherence remains stable until late in the trajectory (Appendix H). This smooth transition reveals a well-structured parameter gradient connecting aligned and misaligned regions. Our results show the functional equivalence across EM tasks and the smooth, monotonic progression from aligned to

misaligned behavior, confirming that emergent misalignment operates through a coherent parameter manifold with harmful behaviors as interchangeable points along continuous gradients.

Testing LMC between EM tasks, we find that cross-task interpolations maintain consistent misalignment levels throughout the parameter path (Fig. 3, Top-Right). The interpolated models exhibit and EM responses for different model families while preserving > 90% coherence (Appendix H), demonstrating functional equivalence across semantically distinct harmful behaviors.

To complement our parameter-space analysis and investigate how weight-space equivalence translates into feature-space properties, we similarly examine whether the cross-task LMC we observe in the weights extends to the models’ internal feature representations as well. For each prompt, we extract intermediate feature representations from corresponding layers of different EM models and perform layerwise linear interpolation in the feature space defined as:

where and are feature representations from two different EM models with weights and respectively, and and compare it with obtained from the interpolated weights . Doing so tests whether the linear interpolation produces equivalent results in feature space as that in the weight space, potentially providing a mechanistic explanation of the convergent EM representations established in previous works [8].

The normalized L2 errors between linearly interpolated features and features from weight-interpolated models remain close to zero (Fig. 3, Bottom-Left), with R2 scores near unity (Fig. 3, Bottom-Right and Appendix H), indicating that indeed functionally convergent representations and behaviour across various fine-tunes can be explained by the structural properties we established in the weight space. In toto, these results confirm that EM reflects shared parametric and representational subspaces where interpolations between tasks retain both the abstract functionality of “harmfulness” without losing the semantic consistency of coherent responses.

5 Conclusion and Future Work

Summary

이 섹션에서는 **Emergent Misalignment (EM)**이 해로운 작업 간 공유 파라미터 하위공간(shared parameter subspaces)에 수렴하며, 이 하위공간이 기존 기본 가중치와 거의 직교한 구조를 갖는다는 분석 결과를 제시한다. 연구팀은 이 하위공간이 기능적으로 대체 가능한 전이 가능한 사전(transferable prior)을 구현하는 밀집된 파라미터 모듈(compact parameter-level module)로 작동한다고 가설화하며, 이를 통해 기하학적 접근을 통해 공유 취약점을 직접 타겟팅하는 안전 메커니즘(safety mechanisms) 개발 가능성을 제시한다. 특히, 파라미터(parameters)의 근본 원인을 해결하는 방식이 기존의 활성화(activations)에 기반한 증상 치료보다 효과적일 수 있음을 강조한다. 또한, 고수준 인지 행동(high-level cognitive behaviors)이 파라미터 기하학을 통해 이해될 수 있음을 보여주며, 논리, 창의성, 사회적 이해 등의 다른 고수준 능력도 해석 가능한 파라미터 다양체(manifolds)로 구성될 수 있음을 시사한다. 이는 개인성 인식(persona-aware) 기반의 가중치 공간 개입(weight-space interventions)을 통해 EM을 방지하거나 다른 인지 현상을 유도하는 동시에 일관성(coherence)을 유지하는 방향의 연구 확장 가능성을 열어둔다.

Our analysis reveals that emergent misalignment arises from different harmful tasks converging to shared parameter subspaces that are near orthogonal to the base weights, with LMC confirming these shared parameters are functionally interchangeable in the misalignment subspace. We therefore hypothesize this subspace behaves as a compact parameter-level module that implements a transferable prior for “harmfulness”. Moreover, our geometric view suggests targeting shared vulnerabilities directly [17], enabling safety mechanisms that address root causes (i.e., the parameters) rather than symptoms (i.e., the activations). More broadly, our findings demonstrate how high-level cognitive behaviors in LLMs can be understood through their parameter geometry, suggesting that other high-level capabilities like reasoning, creativity, or social understanding might similarly organize into interpretable parameter manifolds, implying the possibility for manipulation of other belief scale model attributes. This subsequently opens the door for exploration of persona-aware, weight-space interventions that exploit this geometric organization to steer models away from misalignment (or stimulate other cognitive phenomena) while preserving coherence.

Acknowledgments and Disclosure of Funding

DARA, EZ, and AA participated as mentees in the Summer 2025 cohort at Algoverse AI Research, with AB serving as their mentor. Compute resources for this project were provided by the research program. The authors declare no competing interests.