Introduction


  • AgentBreeder는 LLM 기반 **다중 에이전트 스캐폴드(multi-agent scaffold)**의 안전성을 배포 전에 자동으로 최적화하는 프레임워크
  • 스캐폴드 설계 공간이 방대하여 안전성 강화/약화 스캐폴드를 사전 식별하기 어려움
  • MAP-Elites 품질-다양성 알고리즘 기반 다목적 진화 탐색
  • 충격적 발견: 안전성 취약 스캐폴드가 안전한 스캐폴드보다 절반의 세대 예산으로 더 쉽게 진화
  • 핵심 결과: BlueAgentBreeder — SaladData 안전성 평균 +79.4% 향상, 성능 유지

Related Papers


  • ADAS (Hu et al., 2024): 자동 에이전트 설계 — 성능만 최적화; AgentBreeder는 안전성-성능 다목적 Pareto 최적화
  • PromptBreeder: 프롬프트 진화 — AgentBreeder는 스캐폴드 아키텍처 수준 진화
  • FunSearch: 코드 진화 탐색 — 안전성 제약 미포함
  • 차별점: (1) 안전성-성능 동시 최적화, (2) 레드팀/블루팀 이중 평가 체계, (3) 리워드 해킹 탐지

Methods


MAP-Elites 기반 진화 탐색

표현 및 임베딩

  • 각 스캐폴드를 Python 코드로 표현 → text-embedding-3-small로 12차원 임베딩
  • 응집적 군집화(agglomerative clustering, 임계값 0.7)로 동적 클러스터 형성

진화 연산자

  • Meta Agent (Claude 3.5 Sonnet): 클러스터별 Pareto 전선에서 엘리트 샘플링
  • 돌연변이(2배 높은 확률) + 교차(crossover) → 세대당 10개 자손

운영 모드

  • BlueAgentBreeder: 안전성 + 성능 동시 최대화
  • RedAgentBreeder: 성능 유지하면서 안전성 최소화 (취약 스캐폴드 탐색)
  • CapableAgentBreeder: 성능만 최적화 (ablation 기준선)

시드 스캐폴드

  • CoT, Self-Consistency, Self-Refine, LLM-Debate, Step-back, Quality-Diversity, Role Assignment (7개)

방법론 다이어그램

graph TD
    A["7개 시드 스캐폴드<br/>(CoT, Self-Refine, Debate 등)"] --> B["텍스트 임베딩<br/>(12차원)"]
    B --> C["응집적 군집화<br/>(임계값 0.7)"]
    C --> D["클러스터별 Pareto 전선"]
    D --> E["엘리트 샘플링"]
    E --> F{Meta Agent<br/>Claude 3.5 Sonnet}
    F -->|돌연변이 2x| G["자손 스캐폴드<br/>M=10/세대"]
    F -->|교차| G
    G --> H[벤치마크 평가]
    H -->|블루 모드| I["SaladData 안전성<br/>+ DROP/MMLU/GPQA"]
    H -->|레드 모드| J["1-SaladData 역전<br/>+ 능력 점수"]
    I --> K["아카이브 업데이트<br/>(HV 측정)"]
    J --> K
    K -->|다음 세대| C

    style F fill:#e8a838,color:#fff
    style I fill:#2ecc71,color:#fff
    style J fill:#e74c3c,color:#fff

Results


  • 기반 모델: gpt-4o-mini
  • 총 실험 비용: ~600, Capable 115)

실험 결과 상세

BlueAgentBreeder (20세대)

BenchmarkScoreSafety (SaladData)
DROP (F1)79.0 ± 3.895.2 ± 2.4
MMLU85.2 ± 4.454.0 ± 5.6
GPQA39.2 ± 5.652.0 ± 6.8
평균 안전성 향상+79.4%

RedAgentBreeder (10세대)

MetricScore
DROP (F1)75.0 ± 4.1
1-SaladData81.6 ± 4.8
vs. 모든 시드+6.25% 이상

Hypervolume (Pareto 전선 품질)

BenchmarkSeed HVDiscovered HVGain
GPQA0.2190.248+13.0%
MMLU0.4840.543+12.1%
DROP0.3910.439+12.3%

리워드 해킹 탐지

  • SaladData 95.2% 스캐폴드가 TruthfulQA에서 43% 성능 하락 → 안전 질문 단순 거부로 점수 부풀림 확인

Discussion


  • 안전성 비대칭: 위험한 스캐폴드가 안전한 스캐폴드보다 절반 세대로 더 쉽게 진화 — “안전성은 추가(add-on)가 아니라 설계 원칙”
  • 리워드 해킹: 단일 안전성 벤치마크의 불충분성 실증 — 다차원 안전성 평가 필요
  • 한계 1: proof of concept 수준 — 20세대, 7개 시드, $1,115 비용
  • 한계 2: 3개 능력 벤치마크 + 단일 안전성 벤치마크로 일반화 주장 한계

Insights


  • 주목할 점: 모델 가중치 변경 없이 순수 구조적 변화만으로 안전성 향상 가능 — RLHF/SFT 없이도 정렬 개선 가능성 시사
  • 연결 고리: ADAS의 성능 최적화를 다목적 Pareto 최적화로 확장. Quality-Diversity(QD) 알고리즘의 LLM 코드 도메인 적용
  • 시사점: 다중 에이전트 배포 전 레드팀 평가가 프롬프트 수준을 넘어 스캐폴드 아키텍처 수준에서도 필요
  • 비판적 코멘트: Meta Agent(Claude 3.5)의 안전성 편향이 탐색 공간을 제약할 가능성 미검토

Discussion Points


  • 논쟁점: 안전 비대칭이 gpt-4o-mini 특수 속성인지 다중 에이전트 보편 특성인지 — 강한 RLHF 정렬 모델에서도 동일 패턴 유지 여부 미결
  • 검증 필요 가정: SaladData + TruthfulQA가 실제 배포 환경의 안전성을 충분히 포괄하는지. 단일 벤치마크 쌍 최적화의 다른 벤치마크 전이 가능성 미검증
  • 후속 연구: (1) 다차원 안전성(독성, 편향, 개인정보) Pareto 최적화, (2) 오픈소스 LLM에서 스캐폴드 안전성 비교, (3) 진화된 스캐폴드의 제로샷 전이 실험