본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: LLM-safety
2건의 항목
2026년 6월 04일
Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior
paper-review
LLM-safety
emergent-misalignment
parameter-subspace
linear-mode-connectivity
fine-tuning
interpretability
self-knowledge
weight-geometry
theory
2026년 6월 04일
Teaching LLMs to Abstain across Languages via Multilingual Feedback
multilingual
abstention
LLM-safety
fairness
calibration
cross-lingual
EMNLP2024
knowledge-boundary
self-reflection
training