자기진화 AI 에이전트 종합 서베이: 기초 모델과 평생 에이전트 시스템을 잇는 새로운 패러다임

Digest: 대규모 언어 모델 기반 AI 에이전트는 복잡한 실세계 작업을 수행할 수 있지만, 대부분의 시스템은 배포 후 수동으로 설계된 정적 구성에 의존하여 동적 환경에 적응하지 못한다. 핵심 통찰은 에이전트의 진화를 6가지 독립적이면서 상호작용하는 축 — 기초 모델, 프롬프트, 메모리, 도구, 워크플로, 에이전트 간 통신 — 으로 분해하고, 각 축에 대해 학습 기반과 추론 시점 최적화를 체계적으로 분류할 수 있다는 것이다. 이를 구현하기 위해 저자들은 System Inputs, Agent System, Environment, Optimisers의 4요소 통합 프레임워크를 제안하고, 아시모프의 로봇 3법칙에서 영감받은 자기진화 3법칙(Endure-Excel-Evolve)으로 안전 > 성능 > 진화의 우선순위를 명시한다. 단일 에이전트 최적화(SFT, RL, 테스트 시점 탐색), 다중 에이전트 최적화(자동 구성, 워크플로 생성), 도메인 특화 적용(의생명, 프로그래밍, 금융)을 체계적으로 정리하며, EvoAgentX 프레임워크와 함께 200편 이상의 논문을 포괄하는 최초의 자기진화 에이전트 종합 서베이이다.

메타데이터

항목	내용
제목	A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
저자	Jinyuan Fang, Yanwen Peng, Xi Zhang, Yingxu Wang, Xinhao Yi, Guibin Zhang, Yi Xu, Bin Wu, Siwei Liu, Zihao Li, Zhaochun Ren, Nikos Aletras, Xi Wang, Han Zhou, Zaiqiao Meng
소속	다수 기관 (90명 이상 기여자)
연도	2025
발표	arXiv:2508.07407 (v1: 2025-08-10, v2: 2025-08-31)
링크	arXiv, GitHub
키워드	Self-Evolving Agents, Lifelong Learning, Agent Optimization, Foundation Models, Multi-Agent Systems

왜 이 연구를 하는가?

핵심 질문

AI 에이전트가 배포 후 환경 변화에 자동으로 적응하며 내부 구성 요소를 자율적으로 최적화할 수 있는가?

기존 접근법의 한계

한계	설명
정적 구성의 한계	대부분의 에이전트 시스템이 수동 설계된 프롬프트, 도구, 워크플로에 의존하여 배포 후 변화에 대응 불가
분절된 연구	모델 미세조정, 프롬프트 최적화, 메모리 관리 등이 독립적으로 연구되어 통합 시각 부재
안전성 고려 부족	자율적 자기수정이 안전성과 성능을 훼손할 위험에 대한 체계적 가이드라인 부재
평가 방법론 미비	정적 벤치마크가 지속적으로 진화하는 시스템의 평가에 부적합
단일 축 최적화 편향	기존 연구가 모델 가중치 업데이트에 치중하여 프롬프트, 메모리, 도구 등의 진화를 간과

핵심 통찰

에이전트의 자기진화를 단일 문제가 아닌 다축 최적화 문제로 재정의해야 한다. 기초 모델의 가중치 업데이트만이 아니라, 프롬프트 구조, 메모리 모듈, 도구 사용 정책, 워크플로 구성, 에이전트 간 통신 토폴로지 각각이 독립적인 진화 대상이며, 이들의 조합이 전체 시스템의 적응력을 결정한다. 또한 자기수정은 안전성을 최우선으로 보장한 뒤에만 허용되어야 하며, 이를 위해 명시적인 우선순위 체계가 필요하다.

방법 (Method)

통합 프레임워크: 4요소 피드백 루프

graph TB
    subgraph SI["System Inputs (시스템 입력)"]
        I1["태스크 명세"]
        I2["초기 구성<br/>(프롬프트, 도구, 워크플로)"]
        I3["사전 학습된 모델"]
    end

    subgraph AS["Agent System (에이전트 시스템)"]
        direction TB
        A1["기초 모델<br/>(Foundation Model)"]
        A2["프롬프트<br/>(Prompt)"]
        A3["메모리<br/>(Memory)"]
        A4["도구<br/>(Tools)"]
        A5["워크플로<br/>(Workflow)"]
        A6["에이전트 간 통신<br/>(Inter-Agent)"]
    end

    subgraph ENV["Environment (환경)"]
        E1["태스크 환경<br/>(피드백 신호)"]
        E2["사용자 상호작용"]
        E3["외부 자원"]
    end

    subgraph OPT["Optimisers (최적화기)"]
        O1["진화 알고리즘"]
        O2["강화 학습"]
        O3["경사 하강법"]
        O4["텍스트 기반 최적화"]
    end

    SI --> AS
    AS -->|"행동 실행"| ENV
    ENV -->|"피드백 신호"| OPT
    OPT -->|"구성 요소 업데이트"| AS

자기진화 3법칙 (Three Laws of Self-Evolving AI Agents)

아시모프의 로봇 3법칙에서 영감받은 우선순위 체계로, 각 법칙은 상위 법칙에 종속된다.

제1법칙 — Endure (안전 적응): 자기진화 AI 에이전트는 어떤 수정 과정에서도 안전성과 안정성을 유지해야 한다. 이는 최상위 제약으로, 성능 향상이나 자율 진화가 안전을 훼손할 수 없음을 의미한다.

제2법칙 — Excel (성능 보존): 제1법칙에 종속하여, 자기진화 AI 에이전트는 기존 태스크 성능을 보존하거나 향상시켜야 한다. 새로운 환경에 적응하면서도 이전에 학습한 능력을 잃지 않아야 한다(catastrophic forgetting 방지).

제3법칙 — Evolve (자율 진화): 제1, 2법칙에 종속하여, 자기진화 AI 에이전트는 변화하는 태스크, 환경, 자원에 대응하여 내부 구성 요소를 자율적으로 최적화해야 한다.

진화 경로: MOP → MOA → MAO → MASE

서베이는 에이전트 시스템의 발전 단계를 4단계로 구분한다.

MOP(Model Offline Pretraining) 는 정적 데이터로 기초 모델을 사전 학습하는 단계이다. MOA(Model Online Adaptation) 는 배포 후 온라인 미세조정을 통해 환경에 적응하는 단계이다. MAO(Multi-Agent Orchestration) 는 다수 에이전트의 협업을 조율하는 단계이다. MASE(Multi-Agent Self-Evolving) 는 최종 비전으로, 다중 에이전트가 자율적으로 자기수정하며 진화하는 단계이다.

진화 전략 분류체계 (Taxonomy)

1. 단일 에이전트 최적화

1.1 LLM 행동 최적화

학습 기반 (Training-Based)

지도 미세조정(SFT, Supervised Fine-Tuning)과 강화학습(RL, Reinforcement Learning)으로 나뉜다. SFT 접근법은 ToRA(ICLR’24)의 도구 통합 수학 추론, STaR(NeurIPS’22)의 부트스트랩 추론, MAS-GPT(ICML’25)의 다중 에이전트 시스템 구축 등이 있다. RL 접근법은 Self-Rewarding Language Models(ICML’24)의 자기 보상, Agent Q(Arxiv’24)의 자율 에이전트 추론, R-Zero(Arxiv’25)의 제로 데이터 자기진화 추론 등이 대표적이다.

테스트 시점 (Test-Time)

세 가지 하위 접근법으로 분류된다. 피드백 기반은 CodeT(ICLR’23)의 생성 테스트 기반 검증, Math-Shepherd(ACL’24)의 단계별 검증이 포함된다. 탐색 기반은 Self-Consistency(ICLR’23), Tree of Thoughts(NeurIPS’23), Graph of Thoughts(AAAI’24), Forest-of-Thought(ICML’25) 등 추론 구조의 점진적 정교화를 보여준다. 추론 기반은 START(EMNLP’25), CoRT(Arxiv’25) 등 도구 통합 추론이다.

1.2 프롬프트 최적화

네 가지 패러다임으로 분류된다. 편집 기반(Edit-Based)은 GPS(EMNLP’22)의 유전 프롬프트 탐색, GrIPS(EACL’23)의 경사 없는 탐색이 있다. 진화적(Evolutionary)은 EvoPrompt(ICLR’24)의 LLM-진화 알고리즘 하이브리드, Promptbreeder(ICML’24)의 자기참조적 자기개선이 대표적이다. 생성적(Generative)은 APE(ICLR’23)의 LLM을 프롬프트 엔지니어로 활용, OPRO(ICLR’24)의 LLM을 최적화기로 활용, DSPy(EMNLP’24)의 다단계 프로그램 최적화가 포함된다. 텍스트 경사 기반(Text Gradient)은 APO(EMNLP’23)의 텍스트 “경사 하강법”, TextGrad(Arxiv’24)의 자동 텍스트 미분이 대표적이며, 미분 불가능한 프롬프트를 자연어 피드백으로 최적화하는 독특한 접근이다.

1.3 메모리 최적화

에이전트의 경험을 축적하고 활용하는 메커니즘의 진화이다. A Human-Inspired Reading Agent(ICML’24)의 요지 메모리(gist memory), Agent Workflow Memory(ICML’24)의 워크플로 패턴 축적, MemoryBank(AAAI’24)의 장기 기억, A-MEM(Arxiv’25)의 에이전트형 메모리, Memory-R1(Arxiv’25)의 RL 기반 메모리 관리가 주요 연구이다.

1.4 도구 최적화

세 가지 축으로 분류된다. 학습 기반 도구 사용(Training-Based)은 SFT(ToolLLM의 16,000개 이상 API 마스터, ICLR’24)와 RL(ReTool, ToolRL, Tool-Star 등)로 나뉜다. 추론 시점 도구 사용(Inference-Time)은 프롬프트 기반(EASYTOOL, NAACL’25)과 추론 기반(ToolChain의 A 탐색, ICLR’24; MCP-Zero의 능동적 도구 발견, Arxiv’25)으로 나뉜다. 도구 기능 자체 최적화(Tool Functionality)는 CREATOR(EMNLP’23)의 추상-구체 추론 분리, Alita(Arxiv’25)의 자기진화 범용 에이전트 등이다.

1.5 통합 최적화

Building Self-Evolving Agents(Arxiv’25)의 경험 기반 평생 학습, EvoAgent(Arxiv’25)의 장기 태스크용 지속적 세계 모델이 여러 축을 동시에 최적화하는 시도이다.

2. 다중 에이전트 최적화

자동 구성(Automatic Construction)은 MetaAgent(ICML’25)의 FSM(유한 상태 기계) 기반 자동 에이전트 구성이 대표적이다. MAS 최적화는 ADAS(ICLR’25)의 자동 에이전트 시스템 설계, AFlow(ICLR’25)의 에이전트형 워크플로 생성, GPTSwarm(ICML’24)의 최적화 가능 그래프 기반 언어 에이전트, AgentNet(Arxiv’25)의 분산 진화적 조율, MermaidFlow(Arxiv’25)의 안전 제약 진화적 프로그래밍 등이 포함된다.

도메인 특화 적용

의생명 (Biomedicine)

의료 진단, 약물 발견, 임상 의사결정 지원에서 에이전트 진화가 적용된다. 도메인 제약 조건(환자 안전, 규제 준수)이 최적화 목표와 밀접하게 결합되어, 제1법칙(Endure)의 중요성이 특히 부각되는 영역이다.

프로그래밍 (Programming)

코드 생성, 디버깅, 소프트웨어 개발에서 테스트 피드백 기반 코드 개선이 자기진화의 자연스러운 적용 사례이다. 실행 결과가 명확한 보상 신호를 제공하므로 RL 기반 최적화가 효과적이다.

금융 (Finance)

트레이딩, 위험 평가, 포트폴리오 최적화에서 시장 동적 변화에 대한 적응이 핵심이다. 도메인 제약과 최적화 목표의 긴밀한 결합이 특징이며, 안전성(금융 리스크)과 성능(수익률)의 균형이 3법칙 체계로 관리된다.

평가 및 안전

평가 방법론의 과제

정적 벤치마크는 지속적으로 진화하는 시스템의 평가에 근본적으로 부적합하다. 서베이는 지속적 평가(continuous evaluation)의 필요성을 강조하며, “LLM-as-a-Judge”와 “Agent-as-a-Judge” 패러다임을 제안한다. 태스크 성능뿐 아니라 안전성, 정렬(alignment), 강건성(robustness)을 동시에 측정해야 한다.

안전 및 윤리적 고려

지속적 운영 모니터링, 가드레일(guardrail) 구현, 진화된 에이전트 버전 배포 전 검증 체크가 필수적이다. 자기진화 3법칙의 제1법칙(Endure)이 이 요구를 체계화하며, 어떤 자기수정도 안전성과 안정성을 훼손하지 않아야 한다는 원칙을 확립한다.

이론적 의의

자기진화 에이전트의 통합 분류 체계 확립

기존에 분절되어 있던 모델 미세조정, 프롬프트 최적화, 메모리 관리, 도구 학습, 워크플로 설계, 다중 에이전트 조율 연구를 6축 분류 체계로 통합한 것은, 각 연구가 자기진화라는 상위 목표의 어느 부분을 다루는지를 명시적으로 위치 지정(positioning)하게 해준다. 이는 연구자들이 누락된 축이나 축 간 상호작용이라는 미개척 영역을 식별하는 데 직접적으로 기여한다.

3법칙을 통한 안전-성능-진화 우선순위의 형식화

Endure > Excel > Evolve의 계층적 우선순위는, 자율 시스템의 자기수정이라는 본질적으로 위험한 과정에 명시적 가드레일을 부여한다. 이 체계는 개별 시스템 설계를 넘어, 자기진화 에이전트 연구 커뮤니티의 공통 원칙으로 기능할 수 있는 규범적 기여이다.

MOP → MOA → MAO → MASE 발전 경로의 시사점

4단계 발전 경로는 현재 대부분의 시스템이 MOA(온라인 적응) 또는 MAO(다중 에이전트 조율) 단계에 머물러 있으며, MASE(다중 에이전트 자기진화)는 아직 비전에 가깝다는 것을 보여준다. 이 격차를 식별한 것 자체가 향후 연구 방향을 구조화하는 기여이다.

핵심 용어 정리

용어	정의
Self-Evolving AI Agent	환경 상호작용을 통해 내부 구성 요소를 자율적으로 최적화하며 지속적으로 적응하는 AI 시스템
Three Laws (3법칙)	Endure(안전) > Excel(성능) > Evolve(진화)의 계층적 우선순위 체계; 아시모프의 로봇 3법칙에서 영감
MOP	Model Offline Pretraining; 정적 데이터로 기초 모델을 사전 학습하는 단계
MOA	Model Online Adaptation; 배포 후 온라인 미세조정으로 환경에 적응하는 단계
MAO	Multi-Agent Orchestration; 다수 에이전트의 협업을 조율하는 단계
MASE	Multi-Agent Self-Evolving; 다중 에이전트가 자율적으로 자기수정하며 진화하는 최종 비전
Text Gradient	미분 불가능한 프롬프트를 자연어 피드백(“텍스트 경사”)으로 최적화하는 기법; APO, TextGrad 등
DSPy	Declarative Self-improving Python; 프롬프트와 가중치를 통합 최적화하는 프로그래밍 프레임워크
EvoPrompt	LLM과 진화 알고리즘을 결합하여 프롬프트를 자동 최적화하는 방법
Agent-as-a-Judge	에이전트 시스템을 다른 에이전트가 평가하는 메타 평가 패러다임
Tool Functionality Optimisation	도구 사용 방법이 아닌 도구의 기능 자체를 최적화하는 접근; CREATOR, Alita 등
ADAS	Automated Design of Agentic Systems; 에이전트 시스템 아키텍처를 자동 탐색하는 방법
Guardrail	에이전트의 자기수정이 안전 범위를 벗어나지 않도록 제약하는 안전 메커니즘
EvoAgentX	자기진화 에이전트 워크플로를 자동화하는 오픈소스 프레임워크 (EMNLP’25 Demo)
Catastrophic Forgetting	새로운 태스크 학습 시 이전에 학습한 능력을 잃어버리는 현상; 제2법칙(Excel)이 방지 대상으로 명시

Juhyeon's Blog

탐색기

A Comprehensive Survey of Self-Evolving AI Agents - A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems