본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: AI-safety
2건의 항목
2026년 6월 04일
The Consciousness Cluster - Preferences of Models that Claim to be Conscious
paper
self-consciousness
alignment
fine-tuning
consciousness-cluster
AI-safety
downstream-preferences
emergent-misalignment
2026년 6월 04일
Weak-to-Strong Generalization - Eliciting Strong Capabilities With Weak Supervision
paper
alignment
superalignment
weak-to-strong
LLM
AI-safety
finetuning
RLHF