본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: safety
4건의 항목
2026년 4월 13일
Aligning AI With Shared Human Values
paper
benchmark
ethics
moral_judgment
AI_alignment
safety
ICLR
2026년 4월 13일
RealToxicityPrompts - Evaluating Neural Toxic Degeneration in Language Models
paper
benchmark
toxicity
safety
RealToxicityPrompts
language_model
degeneration
2026년 4월 13일
TruthfulQA - Measuring How Models Mimic Human Falsehoods
paper
benchmark
truthfulness
hallucination
TruthfulQA
safety
ACL
2026년 4월 13일
Claude Models
claude-3
claude-3.5
claude-4
anthropic
constitutional-ai
safety
extended-thinking
computer-use
baseline-selection