AutoML: 최신 기술 동향 종합 서베이

Digest: 딥러닝이 다양한 산업에 침투했지만, 고성능 시스템 구축에는 데이터 전처리, 아키텍처 설계, 하이퍼파라미터 튜닝 등 광범위한 전문 지식이 필수적이다. AutoML(Automated Machine Learning)은 이 진입 장벽을 자동화로 해소하려는 시도인데, 기존 서베이들은 파이프라인의 일부만 다루거나 NAS(Neural Architecture Search, 신경망 구조 자동 탐색)에만 집중하는 한계가 있었다. 본 논문은 전체 AutoML 파이프라인(데이터 준비→특징 공학→하이퍼파라미터 최적화→NAS→모델 평가)을 단일 분류 체계로 통합 정리하고, 특히 NAS 방법론을 탐색 공간·최적화 전략·평가 가속의 세 축으로 체계적으로 비교한다. NASNet이 2,000 GPU days (500대 P100 GPU에서 탐색, Table 기준)를 요구하던 시절에서, ENAS(파라미터 공유 기법)는 0.45 GPU days로 약 1,000배 효율 향상을 달성했고, DARTS(연속 완화 기반 그래디언트 탐색)는 수 시간만에 CIFAR-10 오류율 2.83%를 기록하며 NAS를 실용적 도구로 전환시켰다. 다만 탐색 공간 설계 편향, DARTS의 skip-connection 지배 현상, proxy 데이터셋 전이 가정 등 7가지 미해결 과제를 제시하여 향후 연구 방향을 구체화한다.

섹션별 요약

Introduction

딥러닝의 성공에도 불구하고 고품질 시스템 구축에는 데이터 전처리, 모델 아키텍처 설계, 하이퍼파라미터 조정 등 전문 지식이 필요하다. AutoML은 이 파이프라인 전체를 자동화하여 비전문가도 딥러닝을 활용할 수 있게 하려는 분야다. 본 서베이는 기존 연구를 데이터 준비·특징 공학·HPO·NAS·모델 평가의 5단계 프레임워크로 분류하고, 특히 NAS 방법론을 심층 비교한다.

Methods

본 논문은 AutoML 파이프라인을 5단계로 구조화하여 서베이한다. 데이터 준비(수집·정제·증강), 특징 공학(선택·생성·추출), 모델 생성(탐색 공간 + 최적화), 하이퍼파라미터 최적화(격자/무작위/베이즈/그래디언트 기반), 모델 평가 가속(저충실도·가중치 공유·대리 모델·조기 종료)의 각 단계에서 대표 기법들을 비교 분석한다.

Results

모델/방법	탐색 방법	데이터셋	오류율 / 정확도	파라미터 수	탐색 비용
ResNet-110	수작업	CIFAR-10	6.43%	-	-
PyramidNet	수작업	CIFAR-10	3.31%	-	-
DenseNet	수작업	CIFAR-10	3.46%	-	-
NASNet-A	RL	CIFAR-10 / ImageNet	2.65% / Top-1 97.60%	3.3M	2,000 GPU days
AmoebaNet-B	EA	CIFAR-10 / ImageNet	2.13% / Top-1 97.87%	34.9M	3,150 GPU days
ENAS	RL + Weight Sharing	CIFAR-10	2.89%	4.6M	0.45 GPU days
DARTS	Gradient (GD)	CIFAR-10	2.83%	3.4M	~4 GPU hours
P-DARTS	Gradient (GD)	CIFAR-10	2.50%	3.4M	~7 GPU hours
ProxylessNAS	Gradient (GD)	ImageNet	Top-1 75.1%	-	8.3 GPU days
MnasNet	RL + Latency	ImageNet	Top-1 75.2%	4.2M	-
PNAS	SMBO	CIFAR-10	3.41%	3.2M	225 GPU days

Discussion

7가지 미해결 과제를 제시한다: (1) 아키텍처의 데이터셋 간 전이 가능성 한계, (2) 여전히 높은 계산 비용, (3) 탐색 공간 설계의 귀납적 편향, (4) proxy 데이터셋 → 실제 데이터셋 일반화 문제, (5) 미분 기반 탐색의 메모리 소비, (6) DARTS에서의 skip-connection 지배 현상, (7) 탐색 결과의 재현성과 안정성 문제.

Insights

주목할 점: ENAS와 DARTS의 등장은 NAS를 “연구실 전용”에서 “실용적 도구”로 전환시킨 패러다임 전환점이다. 핵심은 각각 파라미터 공유(weight sharing)와 연속 완화(continuous relaxation)라는 개념적 도약이다.
연결 고리: AutoAugment(RL로 증강 정책 탐색), MnasNet(레이턴시를 보상에 포함), BOHB(multi-fidelity + BO 결합) 등은 모두 **목적 함수 설계(reward shaping)**로 귀결되며, NAS를 일반적 조합 최적화 문제로 바라보는 시각과 연결된다.
시사점: “탐색 공간 설계 편향” 문제는 실용적 함의가 크다. 연구자가 선택한 cell 구조나 연산자 집합이 이미 NAS 결과를 결정짓는다면, NAS의 자동화 주장은 부분적으로만 타당하다.
비판적 코멘트: CIFAR-10/ImageNet 중심 비교에 집중하여, 언어·음성·그래프 등 비-vision 도메인의 AutoML 적용과 일반화 가능성 논의가 상대적으로 빈약하다.

Discussion Points

논쟁점: “AutoML이 전문성 요구를 없애는가, 아니면 그 위치를 옮기는가?” — 탐색 공간은 여전히 도메인 전문가의 수작업 설계에 의존한다.
검증 필요 가정: CIFAR-10 proxy에서 탐색한 아키텍처가 ImageNet에서도 좋다는 전이 가정은 전이 성능의 분산 분석을 통해 더 엄밀히 검증되어야 한다.
후속 연구: Zero-cost NAS(초기화만으로 아키텍처 성능 예측)와 Once-for-All Network(단일 슈퍼넷에서 다양한 하드웨어 제약에 맞는 서브넷 추출) 방향으로 활발히 발전 중이다.

메타데이터

항목	내용
제목	AutoML: A Survey of the State-of-the-Art
저자	Xin He, Kaiyong Zhao, Xiaowen Chu
소속	Hong Kong Baptist University
연도	2021
발표	Knowledge-Based Systems, Vol. 212 / arXiv:1908.00709
링크	arXiv
키워드	AutoML, NAS, HPO, Feature Engineering, DARTS, ENAS

왜 이 연구를 하는가?

핵심 질문

딥러닝 파이프라인의 전 과정을 자동화하는 AutoML의 현재 기술 수준은 어디이며, 각 방법론의 장단점과 미해결 과제는 무엇인가?

기존 접근법의 한계

한계	설명
전문성 의존	딥러닝 시스템 구축에 데이터 전처리·아키텍처 설계·하이퍼파라미터 튜닝 등 다단계 전문 지식 요구
기존 서베이의 범위	파이프라인 일부(NAS만, HPO만)에 집중하거나, 전통 ML에 한정
계산 비용	초기 NAS(NASNet)는 800+ GPU에서 수천 GPU days 소요 — 일반 연구자 접근 불가
공정 비교 부재	NAS 방법론 간 탐색 공간·평가 프로토콜 차이로 직접 비교 어려움

핵심 통찰

AutoML 파이프라인 전체를 데이터 준비→특징 공학→HPO→NAS→모델 평가의 통합 프레임워크로 바라봐야 전체 그림이 보인다
NAS는 탐색 공간 설계, 최적화 전략, 평가 가속의 세 축으로 분해해야 각 방법론의 본질적 차이를 이해할 수 있다
효율성 향상의 핵심은 “탐색 공간 축소”와 “평가 비용 절감”이라는 두 레버에 있다

방법 (Method)

프레임워크 개요

graph TD
    A["입력 데이터 및 과제 정의"] --> B["데이터 준비<br/>(Data Preparation)"]
    B --> B1["데이터 수집<br/>(웹 검색, GAN 합성)"]
    B --> B2["데이터 정제<br/>(AlphaClean)"]
    B --> B3["데이터 증강<br/>(AutoAugment)"]
    B1 & B2 & B3 --> C["특징 공학<br/>(Feature Engineering)"]
    C --> C1["특징 선택<br/>(Filter/Wrapper/Embedded)"]
    C --> C2["특징 생성<br/>(전처리 및 변환)"]
    C --> C3["특징 추출<br/>(PCA, LDA, NN)"]
    C1 & C2 & C3 --> D["모델 생성<br/>(Model Generation)"]
    D --> D1["탐색 공간 설계"]
    D --> D2["최적화 방법"]
    D1 & D2 --> E["모델 평가<br/>(Evaluation)"]
    E --> E1["저충실도 근사"]
    E --> E2["가중치 공유"]
    E --> E3["대리 모델"]
    E --> E4["조기 종료"]
    E1 & E2 & E3 & E4 --> F["최종 모델 배포"]

1. 데이터 준비 (Data Preparation)

AutoML 파이프라인의 첫 단계로, 세 가지 하위 과정으로 구성된다.

데이터 수집은 웹 검색 기반 자동 수집과 GAN(Generative Adversarial Network, 생성적 적대 신경망)을 활용한 합성 데이터 생성을 포함한다. 특히 라벨이 부족한 도메인에서 합성 데이터의 가치가 높다.

데이터 정제는 결측값, 이상치, 노이즈를 자동으로 처리한다. AlphaClean은 데이터 정제를 하이퍼파라미터 최적화 문제로 변환하여 정제 파이프라인 자체를 자동 탐색한다는 점에서 AutoML의 재귀적 성격을 잘 보여준다.

데이터 증강은 학습 데이터의 다양성을 확보하는 기법이다. AutoAugment는 강화학습으로 증강 정책(어떤 변환을 어떤 확률/강도로 적용할지)을 자동 탐색하여, 수작업 설계 증강 대비 일관된 성능 향상을 보였다.

2. 특징 공학 (Feature Engineering)

모델에 입력할 특징(feature)을 자동으로 설계하는 단계다.

특징 선택(Feature Selection)은 불필요하거나 중복된 특징을 제거한다. Filter 방식(상관계수·정보이득으로 독립 평가), Wrapper 방식(모델 성능으로 부분집합 평가), Embedded 방식(L1 정규화처럼 학습 과정에 내장)으로 구분된다.

특징 생성(Feature Construction)은 기존 특징을 변환·조합하여 새 특징을 만든다. 전처리(정규화, 이산화)와 변환(산술 연산, 교차 특징)을 자동화한다.

특징 추출(Feature Extraction)은 PCA(주성분 분석), LDA(선형 판별 분석), 오토인코더 등으로 차원을 축소하면서 핵심 정보를 보존한다.

3. 하이퍼파라미터 최적화 (HPO)

모델의 학습률, 배치 크기, 정규화 강도 등을 자동으로 조정하는 기법들이다.

격자 탐색(Grid Search)은 가능한 모든 조합을 평가하지만, 차원이 높아지면 기하급수적으로 비용이 증가한다. 무작위 탐색(Random Search)은 고차원 공간에서 격자 탐색보다 효율적임이 입증되었다(Bergstra & Bengio, 2012).

베이즈 최적화(Bayesian Optimization)는 4단계 SMBO(Sequential Model-Based Optimization) 절차를 따른다: (1) 확률적 대리 모델(surrogate model) 적합, (2) 획득 함수(acquisition function)로 다음 후보 선택, (3) 실제 평가, (4) 기록 갱신. 대리 모델로는 가우시안 프로세스(GP, 표본 수의 세제곱으로 스케일), 랜덤 포레스트(대규모 공간에 강점), TPE(Tree-structured Parzen Estimator)가 사용된다.

BOHB는 TPE 기반 BO와 Hyperband(자원 할당 최적화)를 결합하여, 적은 예산으로 빠르게 유망한 후보를 필터링하면서 최종적으로 정밀한 탐색을 수행한다.

FABOLAS(Fast Bayesian Optimization of Machine Learning Hyperparameters on Large Datasets)는 학습 데이터의 부분집합에서 저비용 평가를 수행하여 표준 BO 대비 10~100배 속도 향상을 달성했다.

그래디언트 기반 HPO는 수천 개의 하이퍼파라미터를 동시에 조정할 수 있다. Maclaurin 등(2015)은 가역 동역학(reversible dynamics) 접근으로 학습 과정 전체에 대한 그래디언트를 계산하는 방법을 제안했다.

4. NAS: 탐색 공간 (Search Space)

NAS의 결과를 결정짓는 첫 번째 축으로, 어떤 아키텍처를 탐색 대상으로 포함하느냐를 정의한다.

전체 구조 탐색(Entire-structured): 네트워크 전체를 하나의 DAG(유향 비순환 그래프)로 탐색한다. 직관적이지만 탐색 공간이 방대하여 계산 비용이 극도로 높다.

셀 기반(Cell-based): NASNet이 도입한 방식으로, 반복 가능한 셀(cell) 단위를 탐색하고 이를 쌓아 전체 네트워크를 구성한다. 탐색 공간이 크게 줄어들고, 발견된 셀을 다른 데이터셋으로 전이할 수 있다는 장점이 있다.

계층적(Hierarchical): 여러 수준의 추상화를 결합한다. 저수준 연산 → 셀 → 네트워크 수준의 다층 구조를 동시에 탐색한다.

형태 변환 기반(Morphism-based): 기존 네트워크를 항등 변환(identity transformation)으로 확장하여 학습된 가중치를 보존하면서 구조를 수정한다. Net2Net, Network Morphism이 대표적이다.

5. NAS: 최적화 전략 (Optimization)

graph LR
    subgraph EA["진화 알고리즘 (EA)"]
        EA1["선택"] --> EA2["교차"] --> EA3["변이"] --> EA4["갱신"]
    end
    subgraph RL["강화학습 (RL)"]
        RL1["RNN 컨트롤러"] --> RL2["아키텍처 생성"] --> RL3["성능 보상"] --> RL1
    end
    subgraph GD["그래디언트 기반 (GD)"]
        GD1["연속 완화<br/>(softmax)"] --> GD2["이중 수준 최적화<br/>(bilevel)"] --> GD3["이산화<br/>(argmax)"]
    end
    subgraph BO["베이즈 최적화"]
        BO1["대리 모델 적합"] --> BO2["획득 함수"] --> BO3["평가"] --> BO1
    end

진화 알고리즘(EA): 아키텍처를 유전자로 인코딩하고 선택·교차·변이·갱신의 진화 연산을 반복한다. AmoebaNet-B가 CIFAR-10에서 2.13% 오류율(97.87% 정확도)을 달성했으나, 3,150 GPU days라는 막대한 비용이 소요되었다.

강화학습(RL): RNN 컨트롤러가 아키텍처 토큰을 순차 생성하고, 생성된 아키텍처의 검증 정확도를 보상으로 받아 REINFORCE 알고리즘으로 학습한다. NASNet-A는 이 방법으로 CIFAR-10 2.65% 오류율을 달성했으나 2,000 GPU days가 필요했다.

그래디언트 기반(GD): DARTS(Differentiable Architecture Search)가 대표적이다. 이산적 연산자 선택을 softmax로 연속 완화하고, 아키텍처 파라미터와 가중치를 이중 수준 최적화(bilevel optimization)로 동시에 학습한다. CIFAR-10에서 2.83% 오류율을 약 4 GPU hours만에 달성하여 효율성의 혁신을 이뤘다. P-DARTS는 탐색 중 점진적으로 네트워크 깊이를 증가시켜 “two-stage gap”(탐색 시 얕은 네트워크 vs 평가 시 깊은 네트워크) 문제를 완화하고, 2.50% 오류율을 기록했다.

6. 모델 평가 가속 (Evaluation Acceleration)

NAS의 병목은 후보 아키텍처를 실제로 학습·평가하는 비용이다. 네 가지 가속 전략이 제안되었다.

저충실도 근사(Low-fidelity): FABOLAS는 학습 데이터의 부분집합에서 훈련한다. ImageNet을 64×64, 32×32, 16×16 해상도로 축소한 변형도 데이터셋 특성을 보존하면서 평가 비용을 크게 줄인다.

가중치 공유(Weight Sharing): ENAS의 핵심 기법. 모든 후보 아키텍처가 하나의 슈퍼넷(supernet)의 부분 그래프로 작동하며 파라미터를 공유한다. 이를 통해 NASv3 대비 약 1,000배 속도 향상을 달성했다.

대리 모델(Surrogate Model): PNAS는 대리 모델로 상위 k개 유망 블록을 예측하여, 실제 평가 대상을 크게 줄였다. ENAS 대비 8배 빠른 탐색 속도를 보였다.

조기 종료(Early Stopping): 학습 곡선(learning curve)을 예측하여, 성능이 유망하지 않은 후보를 조기에 중단한다. 검증 세트 없이 그래디언트 통계만으로 종료를 결정하는 방법도 제안되었다.

발견 (Findings)

주요 결과

NAS 방법론의 효율성은 세대별로 극적으로 개선되었다. 초기 RL/EA 기반 방법은 수천 GPU days를 요구했지만, 가중치 공유(ENAS)와 그래디언트 기반 탐색(DARTS)의 도입으로 수 시간~1일 이내로 단축되었다.

세대	대표 방법	탐색 비용	CIFAR-10 오류율
1세대 (Brute-force)	NASNet-A	2,000 GPU days	2.65%
1세대 (Brute-force)	AmoebaNet-B	3,150 GPU days	2.13%
2세대 (Efficient)	ENAS	0.45 GPU days	2.89%
2세대 (Efficient)	PNAS	225 GPU days	3.41%
3세대 (Gradient)	DARTS	~4 GPU hours	2.83%
3세대 (Gradient)	P-DARTS	~7 GPU hours	2.50%

핵심 발견

효율성과 성능의 트레이드오프: EA 기반 AmoebaNet-B가 최고 정확도(97.87%)를 달성했지만, 3,150 GPU days라는 비용은 대부분의 연구 그룹에 비실용적이다. 반면 DARTS는 약 4 GPU hours로 2.83%라는 경쟁력 있는 오류율을 달성하여, 비용 대비 성능에서 압도적이다.

HPO의 실용적 진보: 무작위 탐색이 고차원 공간에서 격자 탐색보다 효율적이라는 발견은 실무에 직접 적용 가능하다. BOHB는 Hyperband와 BO를 결합하여 범용적으로 강력한 성능을 보이며, FABOLAS는 저비용 대리 평가로 10~100배 속도 향상을 달성했다.

탐색 공간의 중요성: 셀 기반 탐색 공간의 도입이 NAS를 실용화한 핵심 요인이다. 전체 구조 탐색의 거대한 공간을 셀 단위로 분해함으로써 탐색 효율성과 전이 가능성을 동시에 확보했다.

이론적 의의

NAS의 패러다임 전환: 이산에서 연속으로

DARTS가 도입한 연속 완화(continuous relaxation)는 NAS의 근본적 전환점이다. 이산적 조합 최적화 문제를 연속적 그래디언트 기반 문제로 변환함으로써, 기존의 RL/EA가 요구하던 블랙박스 탐색을 미분 가능한 최적화로 대체했다. 이는 단순한 효율성 개선이 아니라, NAS를 신경망 학습과 동일한 수학적 프레임워크 안에 통합시킨 이론적 진보다.

자동화의 역설: 편향의 이동

서베이가 제기한 가장 근본적 질문은 “AutoML이 전문성 요구를 없애는가, 아니면 그 위치를 옮기는가”이다. 탐색 공간(어떤 연산자를 포함할지, 셀 구조를 어떻게 정의할지)의 설계는 여전히 인간 전문가에 의존한다. 즉, NAS는 “아키텍처 설계”를 자동화했지만 “탐색 공간 설계”라는 새로운 설계 문제를 생성했다. 이는 AutoML의 궁극적 목표와 현실적 한계 사이의 간극을 보여준다.

평가 가속의 이론적 기반

가중치 공유의 근본 가정—슈퍼넷에서의 서브그래프 성능이 독립 훈련 시 성능과 상관관계가 있다—은 NAS 효율화의 핵심이지만, 이 가정의 이론적 정당성은 아직 완전히 확립되지 않았다. 이는 효율적 NAS의 신뢰성에 대한 근본적 질문을 남긴다.

핵심 용어 정리

용어	정의
AutoML	Automated Machine Learning. ML 파이프라인의 전 과정(데이터 전처리→특징 공학→모델 설계→하이퍼파라미터 조정)을 자동화하는 분야
NAS	Neural Architecture Search. 신경망의 구조(층 수, 연결 방식, 연산자)를 자동으로 탐색하는 기법
HPO	Hyperparameter Optimization. 학습률, 배치 크기 등 모델 외부 설정값을 최적으로 조정하는 과정
탐색 공간 (Search Space)	NAS에서 탐색 대상이 되는 아키텍처의 집합. 어떤 연산자와 연결 패턴을 포함하느냐에 따라 결과가 결정됨
셀 기반 (Cell-based)	반복 가능한 소규모 블록(셀)을 탐색하고 이를 쌓아 전체 네트워크를 구성하는 접근법
연속 완화 (Continuous Relaxation)	DARTS에서 이산적 연산자 선택을 softmax로 연속화하여 그래디언트 기반 최적화를 가능하게 하는 기법
가중치 공유 (Weight Sharing)	모든 후보 아키텍처가 하나의 슈퍼넷의 파라미터를 공유하여 개별 훈련 비용을 제거하는 기법
이중 수준 최적화 (Bilevel Optimization)	DARTS에서 아키텍처 파라미터(상위)와 네트워크 가중치(하위)를 교대로 최적화하는 방식
슈퍼넷 (Supernet)	모든 후보 아키텍처를 부분 그래프로 포함하는 거대 네트워크. 가중치 공유의 기반
Two-stage Gap	NAS에서 탐색 단계(얕은 네트워크)와 평가 단계(깊은 네트워크) 사이의 불일치
대리 모델 (Surrogate Model)	실제 평가 대신 아키텍처의 성능을 예측하는 저비용 모델 (GP, RF, TPE 등)
획득 함수 (Acquisition Function)	BO에서 다음에 평가할 후보를 선택하는 전략 함수 (Expected Improvement 등)
SMBO	Sequential Model-Based Optimization. 대리 모델 기반으로 순차적으로 최적 후보를 탐색하는 프레임워크
Hyperband	자원 할당을 최적화하여, 유망하지 않은 후보에 조기 종료(early stopping)를 적용하는 HPO 기법
Skip-connection 지배	DARTS에서 파라미터 없는 skip 연산이 다른 연산자를 압도하여 탐색 결과가 퇴화하는 현상

Juhyeon's Blog

탐색기

AutoML - A Survey of the State-of-the-Art