본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

❯

Adam

2026년 2월 11일2분 분량

Adam?

Momentum + RMSProp

단점 :

학습 초기에 불안정성 : EMA 방식을 사용하니 데이터가 불충분한 초기 단계에서 local minima에 빠지기 쉬움. → RAdam

L2 regularization 시 generalization performance가 예상보다 잘 확보되지 않음.→ AdamW

Key Contibution

RMSProp에서는 EMA(Exponential moving Average) 개념.

gradient에 대한 EMA를 모멘텀 개념으로 해석.

1차, 2차 gradient(제곱) 형태의 모멘텀을 사용해서 파라미터 업데이트.

AdaGrad에서는 per-parameter lr의 철학을 계승해서 구현됨.

파라미터 직접 업데이트 식에서 분모에 들어가는 scaling factor로 gradient의 2차 값을 사용.

추가로 bias-correection 까지.

학습 초기시, EMA 특성으로 초기값은 m, v 값이 0에서 잘 움직이지 않는 것을 보정해주는 작업.

파생형인 AdamW는 LLM에서 현재(2025)까지 goldeen standard로 자리잡고 있음.

adam이 RMSProp + Momentum이니, 실제 코드를 뜯어보면,

moving average 전용 함수가 따로 구현되어 있고 사용하는게 보이네,,,

https://losslandscape.com/explorer
위와 같은 시각화 툴 한 번 찾아볼 것.

공유하기

그래프 뷰

Properties

Paper: Adam: A Method for Stochastic Optimization
URL: https://arxiv.org/abs/1412.6980

백링크

AdamW
Optimization
Architecture
Fundamentals
LLMs
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs - An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
Memory
self-consciousness
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog