본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: Adversarial-Attack
2건의 항목
2026년 6월 04일
HarmBench - A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
Benchmark
RedTeaming
LLM-Safety
Adversarial-Attack
Jailbreak
ASR
ICML2024
2026년 6월 04일
JULI - Jailbreak Large Language Models by Self-Introspection
Jailbreak
LLM-Safety
Adversarial-Attack
Black-Box-Attack
Self-Introspection
BiasNet
AlignmentRobustness
Theory