본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: hyperparameters
11건의 항목
2026년 4월 13일
BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding
bert
pre-training
bidirectional
mlm
nsp
baseline-selection
hyperparameters
2026년 4월 13일
DeepSeek Models
deepseek-v2
deepseek-v3
moe
mla
fp8
efficient-training
baseline-selection
hyperparameters
2026년 4월 13일
Falcon - The RefinedWeb Dataset for Falcon LLM
falcon
refinedweb
data-quality
tii
baseline-selection
hyperparameters
2026년 4월 13일
Gemma Models
gemma
gemma3
google
open-source
small-model
multimodal
vision
long-context
baseline-selection
hyperparameters
2026년 4월 13일
LLaMA Models
llama
llama2
llama3
meta
open-source
scaling-laws
rlhf
dpo
gqa
baseline-selection
hyperparameters
paper
architecture
training
Dense
Meta
2026년 4월 13일
Mistral Models
mistral
mixtral
moe
sparse
sliding-window-attention
gqa
efficient
baseline-selection
hyperparameters
2026년 4월 13일
PaLM - Scaling Language Modeling with Pathways
palm
google
scaling
pathways
baseline-selection
hyperparameters
2026년 4월 13일
Phi-3 Technical Report
phi-3
microsoft
small-model
synthetic-data
baseline-selection
hyperparameters
2026년 4월 13일
Qwen Models
qwen2.5
qwen3
alibaba
dense
moe
multilingual
reasoning
baseline-selection
hyperparameters
2026년 4월 13일
Training language models to follow instructions with human feedback - InstructGPT
instructgpt
rlhf
alignment
openai
baseline-selection
hyperparameters
2026년 4월 13일
Yi - Open Foundation Models by 01.AI
yi
01ai
bilingual
chinese
data-quality
baseline-selection
hyperparameters