Meta-Harness: 모델 하네스의 엔드투엔드 최적화

Digest: LLM 성능은 모델 자체만이 아니라 정보 저장·검색·제시를 담당하는 하네스(harness) 코드에 크게 좌우되며 동일 모델에서도 하네스 차이로 최대 6× 성능 격차가 발생한다(Challenge). 기존 텍스트 최적화 방식은 스칼라 점수나 요약에만 의존해 한 번의 평가가 만들어내는 ~10M 토큰 규모의 진단 정보를 활용하지 못한다(Insight). 본 논문은 Meta-Harness, 즉 Claude Code(Opus-4.6)를 proposer로 사용해 파일시스템 질의(grep/cat)로 과거 하네스의 소스·점수·실행 트레이스에 선택적으로 접근하는 agentic proposer 기반 harness 탐색 시스템을 제안한다(Solution). 실험적으로 텍스트 분류에서 ACE 대비 +7.7점(컨텍스트 토큰 4× 절감), IMO 난도 수학 문제 200개에서 5개 held-out 모델 평균 +4.7점, TerminalBench-2에서 Opus-4.6 기준 76.4% pass rate(2위)를 기록했다(Evidence, 수치 출처: 논문 §4.1–4.3). 이는 풍부한 진단 이력 접근이 자동 하네스 엔지니어링을 가능케 함을 보이며(Learning), 단일 proposer(Claude Code)로 제한된 검증 범위와 하네스-가중치 공진화 미탐구는 향후 과제로 남는다(Questions).

섹션별 요약

Abstract

Meta-Harness는 LLM 애플리케이션의 하네스 코드를 자동으로 탐색·최적화하는 시스템이다. 핵심 메커니즘은 agentic proposer가 filesystem을 통해 이전 후보들의 소스코드, 점수, 실행 트레이스에 직접 접근하는 것이다. 세 영역에서 검증: (1) 온라인 텍스트 분류 — ACE 대비 +7.7점, 컨텍스트 토큰은 4× 적음, (2) IMO 난도 200문제 수학 검색 — 5개 held-out 모델 평균 정확도 +4.7점, (3) TerminalBench-2 에이전틱 코딩 — 사람이 엔지니어링한 baseline 초월.

저자 contribution

Filesystem 기반 진단 접근: 이전 평가의 원시 코드·트레이스·점수에 선택적으로 질의하는 agentic proposer를 도입, 단일 평가당 ~10M 토큰의 진단 정보를 활용 가능하게 한다.
Minimal outer loop: parent 선택 규칙 없이 population과 Pareto frontier만 유지하는 미니멀 탐색 루프로 텍스트 분류·수학 검색·코딩 에이전트 세 도메인에서 SOTA 또는 경쟁력 있는 결과를 달성한다.
수치 증거: 분류 +7.7점/4× 토큰 절감, 수학 +4.7점(5 모델 평균), TerminalBench-2 Opus-4.6 76.4%(#2)·Haiku-4.5 37.6%(#1).

왜 이 연구를 하는가?

동기: LLM 시스템 성능은 모델 가중치뿐 아니라 프롬프트·검색·메모리·오케스트레이션 로직을 묶는 harness에 크게 의존하며, 동일 모델에서 harness 차이만으로 벤치마크 성능이 6× 변동한다. 그러나 harness 엔지니어링은 여전히 수작업이다.
기존 한계 (2+):
1. 기존 텍스트 최적화(예: prompt optimization) 기법은 스칼라 점수만 조건으로 받거나 피드백을 요약으로 압축하여 raw 실행 트레이스의 풍부한 정보를 버린다.
2. 또는 memoryless — 과거 후보 이력에 체계적으로 접근하지 못해 실패 모드 진단이 불가능하다.
핵심 통찰 / RQ: “proposer에게 과거 코드·트레이스·점수에 대한 파일시스템 수준의 선택적 접근을 허용하면, 스칼라/요약 기반 방법이 놓치는 실패 원인을 식별하고 더 나은 harness를 제안할 수 있는가?”

Introduction

Harness 엔지니어링의 중요성에도 불구하고 자동화는 미개척이다. 저자는 두 관찰로 출발한다. 첫째, 고정 LLM에서 harness만 바꿔도 6× 성능 격차가 존재한다. 둘째, 단일 평가가 생성하는 진단 정보(로그·트레이스·중간 산출물)는 최대 10M 토큰에 달해, 기존 텍스트 최적화의 작업 스케일을 3 orders of magnitude 초과한다. 따라서 이 규모를 직접 프롬프트에 싣는 것은 불가능하며, 선택적 질의가 필수다. Meta-Harness는 이 선택적 질의를 Claude Code의 filesystem tool로 구현하고, proposer가 grep/cat으로 관심 영역만 끌어오게 한다. 이는 텍스트 최적화를 “스칼라 → 요약 → 선택적 raw 접근”으로 한 단계 확장하는 셈이다.

Methods

Meta-Harness의 외부 루프는 4단계로 구성된다:

Inspect: proposer(Claude Code + Opus-4.6)가 filesystem 질의로 이전 하네스 소스·트레이스·점수 검사 (iteration당 중앙값 82 files).
Propose: 실패 모드 진단에 기반해 새 harness 코드(단일 Python 파일)를 제안. 프롬프팅·검색·메모리·오케스트레이션 로직을 자유롭게 수정.
Evaluate: search task에서 제안된 harness 실행·채점.
Log: 코드·점수·트레이스를 영구 저장해 후속 iteration에서 재접근 가능.

설계 철학: 모든 이력을 단일 프롬프트에 적재하는 대신 표준 개발자 도구(grep, cat)로 선택적 접근. population과 Pareto frontier만 유지하며 parent 선택 규칙 같은 강제 탐색 구조를 두지 않음.

차별점: (a) 스칼라·요약이 아닌 raw 코드 + 트레이스 접근, (b) 고정된 텍스트 돌연변이 연산자 없이 proposer가 인과 가설을 형성하고 수정, (c) search task 1개의 해법이 아니라 재사용 가능한 harness 프로그램을 출력.

발견 (Findings)

텍스트 분류 (§4.1): LawBench·Symptom2Disease·USPTO-50k에서 Meta-Harness 48.6% 정확도 (ACE 40.9 대비 +7.7점), 컨텍스트 토큰 11.4K vs ACE 50.8K (4× 절감). 9개 unseen OOD 데이터셋에서 평균 73.1%로 ACE 70.2% 초월.
최적화기 비교: OpenEvolve·TTT-Discover가 60 proposals로 도달한 정확도를 4 evaluations만에 일치 — 진단 이력 접근의 샘플 효율 이점.
Ablation(핵심): full interface(코드+트레이스) 중앙값 50.0 vs scores-only 34.6 vs scores+summary 34.9 → execution trace 접근이 +15점 이상의 독립적 기여.
수학 검색 (§4.2): 250문제 search set에서 발견된 BM25 기반 subject-routing (combinatorics/geometry/number theory/default) 하네스가 5개 held-out 모델(GPT-5.4-nano/mini, Gemini-3.1-Flash-Lite, Gemini-3-Flash, GPT-OSS-20B) 평균 +4.7점.
TerminalBench-2 (§4.3): Opus-4.6에서 76.4% (전체 #2, ForgeCode 81.8% 다음), Haiku-4.5에서 37.6% (전체 #1, Goose 35.5% 상회). 핵심 발견 구조: environment bootstrapping — agent loop 시작 전 OS/의존성 스냅샷 수집으로 탐색 턴 2–4회 제거.

Results

§4.1 Text Classification: 3 벤치마크 온라인 분류. Zero-shot·few-shot·ACE·MCE 대비 Meta-Harness가 절대 정확도·토큰 효율 모두 우위. OOD 평가(9 데이터셋)에서도 일관된 우위로 overfit to search tasks 가설 반증. Ablation에서 interface richness를 점수→점수+요약→full(코드+트레이스)로 늘리면 중앙값 34.6→34.9→50.0으로 요약이 아닌 raw 접근이 결정적.

§4.2 Math Retrieval: 250 problem search set에서 탐색된 harness는 BM25 + subject routing 구조. 200 IMO-level 문제·5 held-out 모델 교차 평가에서 no-retrieval baseline 대비 +4.7점 (모델간 일관). 검색 설계 자체를 proposer가 발견.

§4.3 TerminalBench-2: 89-task 자율 코딩 벤치. Opus-4.6 76.4% pass rate (리더보드 #2), Haiku-4.5 37.6% (#1). Search 궤적 분석에서 proposer가 confound isolation(환경 초기화 변수를 통제) 후 안전한 수정으로 pivot하는 패턴 관찰.

Discussion

발견된 harness들은 세 가지 실용적 이점을 보인다: (1) OOD 데이터셋·unseen 모델 일반화, (2) wall-clock 수 시간 내 탐색 완료, (3) 코드가 inspectable하여 overfit 점검 가능. 저자는 proposer가 고정 휴리스틱이 아닌 인과 가설 형성에 의해 작동한다고 주장하며 TerminalBench-2 궤적을 증거로 제시한다. 한계로 (a) proposer를 Claude Code 단일 에이전트로 고정해 proposer-agnostic 일반화 미검증, (b) harness-weight co-evolution(RL과의 결합) 미탐구를 언급. 향후 방향은 다양한 proposer 계열(Gemini·GPT), 그리고 모델 가중치와 하네스의 공진화.

이론적 의의

텍스트 최적화의 재정의: 기존 프레임워크(APE·OPRO·TextGrad 등)는 “스칼라 점수 + 요약 피드백” 가정에 고정되어 있었다. Meta-Harness는 진단 정보 접근의 granularity 자체가 최적화 성능의 축임을 실증하며, 최적화 문제를 “condition on summaries → condition on queryable raw history”로 확장한다.
Agentic proposer의 meta-level 일반화: 코딩 에이전트가 코딩 에이전트 자체를 최적화한다는 reflexive 구조가 작동함을 보여, self-improving system 연구에 구체적 실험 설계를 제공한다(KRAFTON의 Self-Evolving 계보와 직접 연결).
Pareto frontier + no parent rule: 명시적 selection 규칙 없이도 diversity와 품질이 유지된다는 관찰은 neuro-evolution의 quality-diversity 논의와 연결된다.

Discussion Points

논쟁점: “proposer의 인과 가설 형성”이라는 주장은 관찰적 근거(트레이스)에 의존하며, 동일 성능이 스케일·메모리 효과로 설명될 가능성(ablation으로 일부 완화)이 남는다.
검증이 필요한 가정: Claude Code Opus-4.6에 특화된 결과가 다른 coding agent(예: Gemini CLI, Devin)로 이식 가능한지. Ablation은 interface richness만 다루며 proposer 계열 변수는 건드리지 않음.
후속 연구: (a) harness ↔ RL fine-tuning co-evolution, (b) 진단 트레이스를 자동으로 요약/청킹하는 intermediate layer, (c) 진단 query 자체의 cost-aware budget.

실험 결과 상세

Benchmark	Task	Baseline	Meta-Harness	Δ	토큰/Note
Text Classification (3 ds)	온라인 분류 정확도	ACE 40.9%	48.6%	+7.7	11.4K vs 50.8K (4× 절감)
Text Classification (OOD 9 ds)	held-out 평균	ACE 70.2%	73.1%	+2.9	—
Ablation: full interface	중앙값 acc	34.6 (scores-only)	50.0	+15.4	+요약만 시 34.9 (미미)
Math Retrieval (IMO-200)	5-model 평균 acc	no-retrieval	+4.7pt	—	GPT-5.4/Gemini-3/GPT-OSS-20B
TerminalBench-2 (Opus-4.6)	pass rate	—	76.4%	rank #2	ForgeCode 81.8% 다음
TerminalBench-2 (Haiku-4.5)	pass rate	Goose 35.5%	37.6%	rank #1	—

수치 출처: 논문 §4.1 Table(텍스트 분류), §4.2(수학 검색), §4.3(TerminalBench-2 리더보드). baseline ACE·MCE는 논문 인용.

프레임워크 다이어그램

flowchart TD
    A[초기 하네스 Seed] --> B[Population Store<br/>코드/점수/트레이스]
    B -->|"filesystem query<br/>(grep, cat)"| C[Agentic Proposer<br/>Claude Code + Opus-4.6]
    C -->|"인과 가설 + 코드 수정"| D[새 Harness Candidate<br/>단일 Python 파일]
    D --> E[Search Task 평가]
    E -->|"score + execution trace<br/>(~10M tokens)"| B
    B --> F[Pareto Frontier 유지<br/>no parent rule]
    F -->|"최종 선택"| G[Held-out 평가<br/>OOD / unseen model]

재현성 및 신뢰도 평가

축	평가	근거
코드 공개	B	TerminalBench-2 artifact는 공개(`stanford-iris-lab/meta-harness-tbench2-artifact`), 전체 탐색 프레임워크 공개 여부 미확인
데이터 공개	B	LawBench·USPTO-50k·TerminalBench-2는 공개, IMO-200 search set 구성 상세 미확인
하이퍼파라미터	C	population size·iteration 수·proposer temperature 등 설정 완전 명시는 본문에서 제한적
Baseline 비교	A	ACE·MCE·OpenEvolve·TTT-Discover·ForgeCode·Goose 등 동시대 방법 다수 포함
Seed/통계	C	분산·신뢰구간 표기 제한적, 5 모델 평균은 통계검정 없이 점 추정
Ablation	A	interface richness ablation(scores vs +summary vs full)로 핵심 주장 직접 지지
종합 등급	B	주요 주장에 대한 직접 ablation 존재, 단 탐색 전체 재현을 위한 하이퍼·분산 정보는 부분적

주장별 신뢰도:

“filesystem 접근이 +15점 ablation 이득” — High: 같은 proposer·예산 아래 직접 비교.
“proposer가 인과 가설을 형성한다” — Medium: 관찰적 궤적 분석에 의존, 대안 설명(capacity scaling) 완전 배제 어려움.
“OOD·unseen model 일반화” — Medium-High: 9 데이터셋·5 모델 held-out은 설득력 있으나 도메인은 여전히 3 영역에 국한.

논문/시스템	연도	피드백 형식	Proposer	대상	메모리 접근	도메인	코드 공개
Meta-Harness (본 논문)	2026	raw code + trace via FS	Claude Code (Opus-4.6)	harness program	선택적 filesystem query	분류·검색·코딩	부분 (artifact)
ACE (Agentic Context Engineering)	2025	요약 + 스칼라	LLM	context buffer	in-prompt summary	분류	공개
OPRO (Optimization by PROmpting)	2023	스칼라 점수	LLM	prompt 텍스트	최근 top-K만	일반	공개
TextGrad	2024	자연어 gradient	LLM	prompt/파이프라인	직전 iteration	QA·코드	공개
OpenEvolve	2024	스칼라 + 코드	LLM	알고리즘 코드	population	수학·코드	공개
DSPy / MIPRO	2023	스칼라 + few-shot	optimizer	프롬프트/demo	bootstrapped	일반	공개

원자적 인사이트 (Zettelkasten)

텍스트 최적화의 bottleneck은 proposer capacity가 아니라 진단 정보의 granularity다 — 같은 Claude Code 모델도 스칼라 점수만 주면 34.6, 요약 추가도 34.9, raw 코드+트레이스 접근만이 50.0에 도달한다. 이는 “LLM이 더 똑똑해지면 된다”는 scaling 가설이 최적화 loop에서는 반은 틀렸다는 증거다.
Filesystem은 가장 저렴한 “long context”다 — 10M 토큰 진단 정보를 프롬프트에 싣지 않고 grep | cat 수준의 접근만 제공해도 문제 해결이 가능하다는 것은, 모델 컨텍스트 윈도우 확장의 상당 부분이 “선택적 질의 레이어”로 대체 가능함을 시사한다.
Coding agent는 자신의 하네스를 최적화할 수 있다 — Claude Code가 Claude Code의 harness를 개선하는 reflexive self-improvement가 단일 벤치 초월이 아닌 3개 이질 도메인에서 성립한다는 점은, self-evolving system이 수사가 아닌 구현 가능한 파이프라인임을 보인다.
Parent selection 없는 Pareto frontier만으로도 품질-다양성 균형이 유지된다 — 명시적 exploration/exploitation 스케줄 없이도 diverse harness가 수렴하는 관찰은 neuro-evolution의 novelty search 논의와 충돌·보완 관계다.

핵심 용어 정리

Harness: 고정 LLM 주변에서 정보 저장·검색·프롬프트 구성·도구 오케스트레이션을 담당하는 코드 레이어. 본 논문에서는 단일 Python 파일로 구현.
Agentic proposer: 탐색 루프에서 다음 후보를 제안하는 주체로, 스칼라 gradient 대신 LLM/coding agent가 담당.
Filesystem-based diagnostic access: 이전 iteration의 코드·로그·점수를 파일시스템에 저장하고 grep/cat 등 표준 도구로 선택 질의하는 패턴. 프롬프트에 ingest하는 대신 pull-on-demand.
Pareto frontier (harness search 맥락): 성능·토큰 비용 등 다목적에서 지배되지 않는 후보 집합. parent 선택 규칙 없이 이 frontier만 유지.
Environment bootstrapping: 에이전트 loop 시작 전 OS·의존성 스냅샷을 사전 수집해 초기 탐색 턴을 제거하는 TerminalBench-2 discovered pattern.
TerminalBench-2: 89-task 자율 에이전틱 코딩 벤치마크. 본 논문은 이 위에서 Opus-4.6/Haiku-4.5에 대해 discovered harness 성능 제시.
ACE (Agentic Context Engineering): 분류 태스크용 SOTA context-management baseline. Meta-Harness의 주 비교 대상.

BibTeX

@article{lee2026metaharness,
  title={Meta-Harness: End-to-End Optimization of Model Harnesses},
  author={Lee, Yoonho and Nair, Roshen and Zhang, Qizheng and Lee, Kangwook and Khattab, Omar and Finn, Chelsea},
  journal={arXiv preprint arXiv:2603.28052},
  year={2026},
  url={https://arxiv.org/abs/2603.28052}
}

Juhyeon's Blog

탐색기

Meta-Harness - End-to-End Optimization of Model Harnesses