차세대 재구성 가능 데이터플로우 아키텍처(RDA)를 위한 ML 라이브러리 개발은 아키텍처 특화 프로그래밍 언어(ASPL) 전문 지식 + ML 알고리즘 이해 동시 필요
대상 언어 STeP(Streaming Tensor Programs): 공개 코드 예시 사실상 부재, 글로벌 어파인 타입 제약 등 프로그램 전체 분석 필요
적응형 자기 개선 에이전트 시스템: LLM이 자체 생성 경험만으로 반복 역량 확장
핵심 결과: 단일 LLM 대비 최대 3.9배 Pass@n 향상; 26개 중 25개 태스크 자동 완성(Pass@n 0.96)
Related Papers
AlphaCode, FunSearch: 코드 생성 자기 개선 — STeP처럼 데이터 희소 언어 미적용
Constitutional AI: 자기 비판 — Adaptive는 태스크 수준 경험 필터링
SWE-bench: 소프트웨어 엔지니어링 벤치마크 — 범용 언어 중심
차별점: (1) 공개 예시 0인 신규 언어에 최초 적용, (2) Guardian Agent로 글로벌 속성 처리, (3) 비단조 커리큘럼 학습
Methods
에이전트 구성
Proposer Agent: 기반 프롬프트(레퍼런스 문서 + 사용 패턴)로 후보 STeP 구현 생성
Guardian Agent: 어파인 타입 제약(프로그램 전체 분석 필요) 위반 탐지·수정 전문 에이전트
구조적 중간 표현(Structural IR): YAML 형식으로 프로그램 정보 외부화 → 컨텍스트 내 더 많은 데모 수용 + 샘플 다양성 증가
검증기: PyTorch 참조 비교 기능적 정확성 + 어파인 타입 정적 분석기
적응형 자기 개선 학습 알고리즘
LLM 에이전트 병렬 샘플링 → 다양한 후보 솔루션 생성
AST 동형 분석으로 고품질 답변 필터링·다양성 측정
경험을 난이도별(hard/medium/easy) 계층화
비단조 커리큘럼: 하드 샘플 우선 → 소진 시 쉬운 예시 혼합 보충
방법론 다이어그램
graph TD
A[ASPL 태스크 입력<br/>STeP 연산자 명세] --> B[Proposer Agent<br/>후보 STeP 구현 생성]
B --> C[코드 생성기<br/>YAML IR → pytest 스크립트]
C --> D{검증기 1: 기능적 정확성<br/>PyTorch 참조 비교}
D -->|실패| E[Guardian Agent<br/>어파인 타입 위반 탐지·수정]
E --> B
D -->|통과| F{검증기 2: 정적 분석<br/>어파인 타입 강제}
F -->|위반| E
F -->|통과| G[정답 샘플 수집]
G --> H[AST 동형 분석<br/>다양성 측정·필터링]
H --> I[난이도 계층화<br/>hard/medium/easy]
I --> J{적응형 데모 선택}
J -->|하드 우선| K[다음 반복 프롬프트 강화]
J -->|하드 소진 시 혼합| K
K --> B
style E fill:#fff3cd
style G fill:#d1fae5
Results
벤치마크: 26개 태스크, 8개 연산자 그룹 (Attention, GEMM, RMSNorm, RoPE, MoE 등)
핵심 발견: 파인튜닝 없이 자체 생성 경험만으로 SFT와 o1 모두 능가
실험 결과 상세
Pass@n 비교
Model
Baseline Pass@n
+ System
Gain
Claude 3.5 Sonnet
0.73
0.96
1.32x
GPT-4o
0.23
0.81
3.52x
DeepSeek-V3
~0.25
0.85
~3.4x
OpenAI o1
0.385
—
—
SFT (133 samples)
0.62
—
—
Ablation
Component
Effect
Structural IR
다양성: 0.50 → 0.64
Guardian Agent
Reuse Pass@n: 6/12 → 11/12
적응형 m=3
1.5x 성능, 1.07x 토큰 효율
발견된 비자명 알고리즘
시스템이 독립적으로 온라인 소프트맥스 및 메모리 프리 스트리밍 어텐션 기법 발견
Discussion
하드 샘플 먼저, 그 다음 혼합: 비단조(non-monotonic) 커리큘럼이 커리큘럼 학습의 새로운 실용적 원칙 제시
실용적 임팩트: 전문가 48시간 내 미완성 작업을 시스템이 평균 10분 내 자동 해결
한계 1: 26개 태스크, 단일 언어(STeP) — 통계적으로 매우 제한적
한계 2: STeP이 저자 연구 그룹 출신 — in-house benchmark bias 우려
Insights
주목할 점: Self-Play + Constitutional AI 자기 비판의 개념을 태스크 수준 경험 필터링(AST 동형 분석)으로 구현 — 토큰 수준 RL과 차별화
연결 고리: AlphaGo의 self-play, Anthropic의 자동 비판과 개념적 연결. SWE-bench의 코드 생성 평가와 상보적
시사점: 데이터 희소 도메인에서 파인튜닝 없이 자체 생성 경험으로 역량 확장하는 패러다임 — 차세대 AI 가속기 SW 스택 병목 해소 가능
비판적 코멘트: AIME-2024 일반화 실험이 단 하나의 추가 도메인 — 일반성 주장에 불충분
Discussion Points
논쟁점: o1 대비 자기 개선 시스템의 우위 주장 — 총 연산 예산(FLOPs) 통제 비교 부재. 단일 모델 vs 다수 샘플+에이전트 비교의 공정성
검증 필요 가정: Guardian Agent의 스케일 가능성 — STeP의 명확한 타입 시스템 덕분이며 CUDA 같은 복잡한 언어에서 동일 효과 미검증
후속 연구: (1) 생성 경험의 다음 실행 재사용(continual learning), (2) 새로운 ASPL 등장 시 전이 학습, (3) 다른 ASPL(CUDA, Triton)에서 범용 IR 설계