AgentFold: Long-Horizon Web Agents with Proactive Context Management

Digest (CISELQ)

Context (C): LLM 기반 웹 에이전트가 정보 탐색(information-seeking) 과제에서 빠르게 확산되고 있으나, 수십~수백 턴에 이르는 long-horizon 과제에서는 토큰 예산이 금세 포화된다. ReAct 계열은 원시 히스토리를 누적해 context saturation과 노이즈 증폭을 겪고, 매 스텝 전체를 요약하는 방식은 후에 다시 필요할 수 있는 세부 정보를 돌이킬 수 없이 잃는다.
Issue (I): “정보를 다 쌓거나(raw) vs 매번 뭉뚱그려 요약하거나(fixed summary)“라는 이분법은 근본적인 trade-off이며, 두 극단 모두 최적이 아니다. 에이전트가 언제 / 어느 범위 / 어느 해상도로 과거를 재정리해야 하는지는 현재 서브태스크의 종료 여부와 디테일의 장기 유용성에 따라 동적으로 달라져야 한다.
Solution (S): 저자들은 “folding”이라는 단일 연산을 도입한다. 매 스텝 에이전트는 (a) 최근 궤적에 대한 granular condensation(세부 보존형 조밀 요약)과 (b) 완료된 멀티스텝 서브태스크에 대한 deep consolidation(서브태스크 전체를 한 덩어리로 추상화)을 선택적으로 실행한다. 컨텍스트를 수동적 로그가 아닌 **능동적으로 조각하는 인지 작업공간(cognitive workspace)**으로 간주한다.
Evaluation (E): BrowseComp(영문), BrowseComp-ZH(중문) 등 long-horizon 정보 탐색 벤치마크에서 AgentFold-30B-A3B가 각각 **36.2% / 47.3%**를 달성. 단순 SFT만으로(continual pretraining·RL 없이) DeepSeek-V3.1-671B-A37B와 같은 초대형 오픈소스 모델을 능가하고, OpenAI o4-mini까지 상회.
Limitations (L): 폴딩 타이밍/스코프의 ground-truth는 수작업 trajectory 주석에 의존하며, RL 없이 SFT만 수행한 만큼 배포 분포 밖 태스크에서의 장기 일반화와 folding 자체의 실패 모드에 대한 체계적 분석은 제한적이다.
Questions (Q): Folding 연산이 실패하는 구간(예: 조기 deep consolidation으로 핵심 단서를 잃는 사례)은? SFT → RL 확장 시 어떤 보상(재접근 비용 최소화 등)이 적합한가? 비(非)브라우징 long-horizon(SWE, 긴 협상) 태스크로의 전이성?

섹션별 요약

Introduction

웹 에이전트의 실패 원인을 “context management”로 재정의한다. ReAct는 tool observation까지 그대로 쌓아 토큰을 소진하고, full-history summarization은 디테일을 비가역적으로 손실한다. 인간 기억의 retrospective consolidation(사후 공고화)에서 영감을 받아, 에이전트가 스스로 과거를 접는 proactive 전략을 제안한다.

Methods

단일 정책 모델이 매 스텝 <fold> 연산을 액션의 일부로 출력. 대상 범위(span)와 해상도(granular vs deep) 두 축으로 파라미터화.
Granular condensation: 최근 k턴의 observation/thought를 핵심 entity·수치·근거 링크를 보존하면서 문장 단위로 압축.
Deep consolidation: “이 sub-goal은 달성했다”고 판단되는 segment 전체를 한 줄 결론 + 결정적 근거 포인터로 축약. 서브태스크 경계를 내부적으로 학습.
Training data: 전문가/강력 모델의 trajectory에서 fold annotation을 생성하고 SFT. Continual pretraining·RL 없이 base 30B A3B MoE에서 미세조정.

Results

Benchmark	Metric	AgentFold-30B-A3B	주요 비교군
BrowseComp (EN)	Accuracy	36.2%	DeepSeek-V3.1-671B-A37B 이상, o4-mini 이상
BrowseComp-ZH	Accuracy	47.3%	주요 오픈소스·프로프라이어터리 상회
장기 탐색 turn budget	효율	컨텍스트 포화 없이 지속 동작	ReAct·fixed-summary는 조기 포화

Discussion

Fixed-summary 계열이 잃는 디테일과 ReAct가 쌓는 노이즈 사이의 중간 지점이 존재하며, 이를 학습 가능한 연산으로 만들면 파라미터 수가 20배 이상 큰 모델까지 꺾을 수 있다는 것이 경험적으로 확인된다. “메모리 아키텍처가 곧 에이전트 능력”이라는 주장에 대한 강한 증거.

Insights

Context는 저장소가 아니라 작업공간이다: 읽기/쓰기/삭제가 모두 정책 결정의 일부.
Scale(파라미터)로 밀어붙이는 것보다 작업공간 설계가 long-horizon에서는 더 큰 레버리지를 가진다.
SFT만으로 충분히 큰 gap이 난다는 것은 folding 행동이 모방 학습하기 좋은 저(低) 탐색 비용 스킬임을 시사.

Discussion Points

Deep consolidation 이후 “되돌리기(un-fold)“가 필요한 경우의 복원 전략은?
Folding 스코프 결정에 자체 uncertainty를 쓰는 online RL 확장 가능성.
다중 에이전트 공유 메모리(공유 작업공간)로의 확장.

메타데이터

항목	값
논문	AgentFold: Long-Horizon Web Agents with Proactive Context Management
저자	Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su 외 (Tongyi Lab, Alibaba; SJTU)
발표	arXiv:2510.24699 (2025-10-28, preprint)
분야	cs.CL / cs.AI / cs.LG
베이스 모델	30B-A3B MoE (Active 3B)
학습 기법	Supervised Fine-Tuning only
주요 벤치마크	BrowseComp, BrowseComp-ZH
카테고리	Application (Web Agent)

왜 이 연구를 하는가?

Long-horizon 정보 탐색은 실제 지식노동의 핵심 유스케이스(리서치, 팩트체크, 쇼핑 비교, 복합 질의 해소)이지만, 기존 에이전트는 10~20턴을 넘어가면 실패율이 급증한다. 그 원인을 “추론 능력 부족”이 아니라 “컨텍스트 관리 실패”로 진단하면, 훨씬 싼 방법(데이터·SFT)으로도 큰 이득이 가능해진다. 이 가설을 실증하기 위해 folding이라는 구체적 연산으로 분리 가능한 축(스코프, 해상도)을 정의하고, 같은 베이스 모델 대비의 개선과 초대형 모델 대비의 성능을 동시에 겨냥한다.

방법 (Method)

flowchart TD
    A[User Query] --> B[Agent Step t]
    B --> C{다음 액션 결정}
    C -->|웹 도구 호출| D[Tool Call: search / open / click]
    D --> E[Observation 수신]
    E --> F[Context Workspace 업데이트]
    C -->|Folding 액션| G{해상도 선택}
    G -->|granular| H[최근 k턴 조밀 압축<br/>entity·수치·링크 보존]
    G -->|deep| I[완료된 서브태스크를<br/>결론 + 포인터로 추상화]
    H --> F
    I --> F
    F --> J{종료?}
    J -->|no| B
    J -->|yes| K[Final Answer]

핵심은 “tool call”과 “folding”을 동등한 레벨의 액션 공간에 둔다는 점이다. 정책 π는 현재 워크스페이스 상태를 보고 (1) 외부 환경 조작과 (2) 내부 메모리 조작 중 하나를 선택하며, 둘 다 SFT로 함께 학습된다.

발견 (Findings)

발견	의미
30B A3B + folding SFT가 671B A37B 를 상회	메모리 설계의 레버리지가 파라미터 스케일보다 큼
BrowseComp 36.2% / BrowseComp-ZH 47.3%	다국어 장기 탐색에서도 일관된 이득
RL 없이 SFT만으로 달성	folding은 모방 가능한 저비용 스킬
o4-mini 초과	프로프라이어터리 에이전트와도 경쟁 가능
고정 요약 대비 디테일 보존 향상	비가역 손실 문제를 실증적으로 완화

이론적 의의

Agent = Policy + Workspace: 에이전트 능력을 “정책(추론)“과 “작업공간(메모리)“의 결합 최적화 문제로 재구성. 기존 ReAct/Reflexion/Toolformer 계열이 주로 정책에 초점을 둔 것과 대비된다.
Memory consolidation as action: 심리학의 retrospective consolidation을 의사결정 액션으로 환원 가능함을 보여, 인지과학 영감을 받은 에이전트 설계의 구체적 템플릿을 제공.
Scale vs Structure: 671B 모델을 30B가 꺾는 사례는 “구조적 귀납편향이 스케일을 일부 대체할 수 있다”는 일반 명제의 또 한 축.

재현성 및 신뢰도 평가

축	평가	근거
Evidence Quality	B	강력한 벤치마크 2종(EN/ZH)에서 큰 개선폭, 다만 단일 조직(Tongyi Lab) 주도
Reproducibility	B	베이스 모델/SFT라는 표준 파이프라인이나, folding 주석 데이터 공개 여부·상세 비율이 관건
External validity	B-	BrowseComp류에 집중, SWE·GUI agent 등 타 long-horizon으로의 전이는 미검증
Statistical rigor	C+	벤치마크 단일 점수 위주, seed·분산 보고 제한적
Theoretical novelty	B+	folding을 학습 액션으로 격상한 프레이밍이 개념적 기여

원자적 인사이트

“컨텍스트는 쓰기 가능한 메모리다” — observation을 단지 읽기만 하는 ReAct 프레임을 깨고, 에이전트가 자기 context를 편집 액션으로 다루게 하면 long-horizon 실패율이 극적으로 줄어든다. 이는 툴 사용과 메모리 관리가 같은 결정론적 액션 공간에 속해야 한다는 설계 원칙을 함의한다.
“파라미터 대신 구조로 스케일하라” — 30B A3B가 671B를 이기는 것은, 동일 compute 예산에서 “더 큰 모델”보다 “더 나은 작업공간 설계 + 해당 설계에 맞는 SFT 데이터”가 더 높은 ROI를 낸다는 실증이며, 에이전트 연구 투자 우선순위를 바꾼다.
“해상도의 이중성” — granular/deep라는 두 해상도만으로 큰 개선이 나온다는 사실은, 메모리 관리 문제가 본질적으로 “세부 보존 vs 추상화”의 스케줄링 문제임을 시사한다. 더 많은 해상도 레벨(3+)이 과연 한계효용을 내는지는 후속 연구의 유망한 질문.

핵심 용어 정리

Folding: 에이전트가 자신의 히스토리를 스스로 압축/추상화하는 액션. granular(조밀 보존)와 deep(서브태스크 추상화) 두 모드.
Granular condensation: 최근 turn들의 원시 관측을 엔터티·수치·근거 링크 수준까지 보존하는 조밀 요약.
Deep consolidation: 이미 종결된 서브태스크 전체를 “결론 + 증거 포인터”로 압축.
Context saturation: 토큰 예산이 소진되어 새 관측을 담지 못하거나 주의가 희석되는 현상.
Retrospective consolidation: 인지과학에서 경험을 사후적으로 장기기억으로 재구성하는 과정. AgentFold의 영감원.
BrowseComp / BrowseComp-ZH: 실제 웹을 탐색하며 복합 사실 질의에 답하는 long-horizon benchmark.
30B-A3B: 총 30B 파라미터 중 토큰당 ~3B만 활성화되는 MoE 구조.
Proactive context management: 주어진 컨텍스트 관리 규칙을 수동 적용하는 대신, 에이전트가 능동적으로 관리 액션을 선택·실행하는 패러다임.

Juhyeon's Blog

탐색기

AgentFold - Long-Horizon Web Agents with Proactive Context Management