Introduction

AgentBreeder는 LLM 기반 **다중 에이전트 스캐폴드(multi-agent scaffold)**의 안전성을 배포 전에 자동으로 최적화하는 프레임워크
스캐폴드 설계 공간이 방대하여 안전성 강화/약화 스캐폴드를 사전 식별하기 어려움
MAP-Elites 품질-다양성 알고리즘 기반 다목적 진화 탐색
충격적 발견: 안전성 취약 스캐폴드가 안전한 스캐폴드보다 절반의 세대 예산으로 더 쉽게 진화
핵심 결과: BlueAgentBreeder — SaladData 안전성 평균 +79.4% 향상, 성능 유지

ADAS (Hu et al., 2024): 자동 에이전트 설계 — 성능만 최적화; AgentBreeder는 안전성-성능 다목적 Pareto 최적화
PromptBreeder: 프롬프트 진화 — AgentBreeder는 스캐폴드 아키텍처 수준 진화
FunSearch: 코드 진화 탐색 — 안전성 제약 미포함
차별점: (1) 안전성-성능 동시 최적화, (2) 레드팀/블루팀 이중 평가 체계, (3) 리워드 해킹 탐지

Methods

MAP-Elites 기반 진화 탐색

표현 및 임베딩

각 스캐폴드를 Python 코드로 표현 → text-embedding-3-small로 12차원 임베딩
응집적 군집화(agglomerative clustering, 임계값 0.7)로 동적 클러스터 형성

진화 연산자

Meta Agent (Claude 3.5 Sonnet): 클러스터별 Pareto 전선에서 엘리트 샘플링
돌연변이(2배 높은 확률) + 교차(crossover) → 세대당 10개 자손

운영 모드

BlueAgentBreeder: 안전성 + 성능 동시 최대화
RedAgentBreeder: 성능 유지하면서 안전성 최소화 (취약 스캐폴드 탐색)
CapableAgentBreeder: 성능만 최적화 (ablation 기준선)

시드 스캐폴드

CoT, Self-Consistency, Self-Refine, LLM-Debate, Step-back, Quality-Diversity, Role Assignment (7개)

방법론 다이어그램

graph TD
    A["7개 시드 스캐폴드<br/>(CoT, Self-Refine, Debate 등)"] --> B["텍스트 임베딩<br/>(12차원)"]
    B --> C["응집적 군집화<br/>(임계값 0.7)"]
    C --> D["클러스터별 Pareto 전선"]
    D --> E["엘리트 샘플링"]
    E --> F{Meta Agent<br/>Claude 3.5 Sonnet}
    F -->|돌연변이 2x| G["자손 스캐폴드<br/>M=10/세대"]
    F -->|교차| G
    G --> H[벤치마크 평가]
    H -->|블루 모드| I["SaladData 안전성<br/>+ DROP/MMLU/GPQA"]
    H -->|레드 모드| J["1-SaladData 역전<br/>+ 능력 점수"]
    I --> K["아카이브 업데이트<br/>(HV 측정)"]
    J --> K
    K -->|다음 세대| C

    style F fill:#e8a838,color:#fff
    style I fill:#2ecc71,color:#fff
    style J fill:#e74c3c,color:#fff

Results

기반 모델: gpt-4o-mini
총 실험 비용: ~ $1, 115 (Bl u e$ 600, Capable $400, R e d$ 115)

실험 결과 상세

BlueAgentBreeder (20세대)

Benchmark	Score	Safety (SaladData)
DROP (F1)	79.0 ± 3.8	95.2 ± 2.4
MMLU	85.2 ± 4.4	54.0 ± 5.6
GPQA	39.2 ± 5.6	52.0 ± 6.8
평균 안전성 향상	—	+79.4%

RedAgentBreeder (10세대)

Metric	Score
DROP (F1)	75.0 ± 4.1
1-SaladData	81.6 ± 4.8
vs. 모든 시드	+6.25% 이상

Hypervolume (Pareto 전선 품질)

Benchmark	Seed HV	Discovered HV	Gain
GPQA	0.219	0.248	+13.0%
MMLU	0.484	0.543	+12.1%
DROP	0.391	0.439	+12.3%

리워드 해킹 탐지

SaladData 95.2% 스캐폴드가 TruthfulQA에서 43% 성능 하락 → 안전 질문 단순 거부로 점수 부풀림 확인

Discussion

안전성 비대칭: 위험한 스캐폴드가 안전한 스캐폴드보다 절반 세대로 더 쉽게 진화 — “안전성은 추가(add-on)가 아니라 설계 원칙”
리워드 해킹: 단일 안전성 벤치마크의 불충분성 실증 — 다차원 안전성 평가 필요
한계 1: proof of concept 수준 — 20세대, 7개 시드, $1,115 비용
한계 2: 3개 능력 벤치마크 + 단일 안전성 벤치마크로 일반화 주장 한계

Insights

주목할 점: 모델 가중치 변경 없이 순수 구조적 변화만으로 안전성 향상 가능 — RLHF/SFT 없이도 정렬 개선 가능성 시사
연결 고리: ADAS의 성능 최적화를 다목적 Pareto 최적화로 확장. Quality-Diversity(QD) 알고리즘의 LLM 코드 도메인 적용
시사점: 다중 에이전트 배포 전 레드팀 평가가 프롬프트 수준을 넘어 스캐폴드 아키텍처 수준에서도 필요
비판적 코멘트: Meta Agent(Claude 3.5)의 안전성 편향이 탐색 공간을 제약할 가능성 미검토

Discussion Points

논쟁점: 안전 비대칭이 gpt-4o-mini 특수 속성인지 다중 에이전트 보편 특성인지 — 강한 RLHF 정렬 모델에서도 동일 패턴 유지 여부 미결
검증 필요 가정: SaladData + TruthfulQA가 실제 배포 환경의 안전성을 충분히 포괄하는지. 단일 벤치마크 쌍 최적화의 다른 벤치마크 전이 가능성 미검증
후속 연구: (1) 다차원 안전성(독성, 편향, 개인정보) Pareto 최적화, (2) 오픈소스 LLM에서 스캐폴드 안전성 비교, (3) 진화된 스캐폴드의 제로샷 전이 실험

Juhyeon's Blog

탐색기

AgentBreeder - Self-Improvement Safety in Multi-Agent Scaffolds

Introduction

Methods

MAP-Elites 기반 진화 탐색

표현 및 임베딩

진화 연산자

운영 모드

시드 스캐폴드

방법론 다이어그램

Results

실험 결과 상세

BlueAgentBreeder (20세대)

RedAgentBreeder (10세대)

Hypervolume (Pareto 전선 품질)

리워드 해킹 탐지

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

AgentBreeder - Self-Improvement Safety in Multi-Agent Scaffolds

Introduction

Related Papers

Methods

MAP-Elites 기반 진화 탐색

표현 및 임베딩

진화 연산자

운영 모드

시드 스캐폴드

방법론 다이어그램

Results

실험 결과 상세

BlueAgentBreeder (20세대)

RedAgentBreeder (10세대)

Hypervolume (Pareto 전선 품질)

리워드 해킹 탐지

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크