본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: baseline-selection
18건의 항목
2026년 4월 13일
BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding
bert
pre-training
bidirectional
mlm
nsp
baseline-selection
hyperparameters
2026년 4월 13일
GQA - Training Generalized Multi-Query Transformer Models
gqa
grouped-query-attention
multi-query-attention
inference
baseline-selection
2026년 4월 13일
RoFormer - Enhanced Transformer with Rotary Position Embedding
rope
rotary-position-embedding
position-encoding
transformer
baseline-selection
2026년 4월 13일
SwiGLU - GLU Variants Improve Transformer
swiglu
glu
ffn
activation
transformer
baseline-selection
2026년 4월 13일
Claude Models
claude-3
claude-3.5
claude-4
anthropic
constitutional-ai
safety
extended-thinking
computer-use
baseline-selection
2026년 4월 13일
Command R+ (Cohere)
command-r-plus
cohere
rag
tool-use
enterprise
baseline-selection
2026년 4월 13일
DeepSeek Models
deepseek-v2
deepseek-v3
moe
mla
fp8
efficient-training
baseline-selection
hyperparameters
2026년 4월 13일
Falcon - The RefinedWeb Dataset for Falcon LLM
falcon
refinedweb
data-quality
tii
baseline-selection
hyperparameters
2026년 4월 13일
GPT Models
gpt-4
gpt-4o
openai
multimodal
omni
scaling
baseline-selection
2026년 4월 13일
Gemini Models
gemini
gemini-1.5
google
multimodal
ultra
pro
nano
long-context
moe
baseline-selection
2026년 4월 13일
Gemma Models
gemma
gemma3
google
open-source
small-model
multimodal
vision
long-context
baseline-selection
hyperparameters
2026년 4월 13일
LLaMA Models
llama
llama2
llama3
meta
open-source
scaling-laws
rlhf
dpo
gqa
baseline-selection
hyperparameters
paper
architecture
training
Dense
Meta
2026년 4월 13일
Mistral Models
mistral
mixtral
moe
sparse
sliding-window-attention
gqa
efficient
baseline-selection
hyperparameters
2026년 4월 13일
PaLM - Scaling Language Modeling with Pathways
palm
google
scaling
pathways
baseline-selection
hyperparameters
2026년 4월 13일
Phi-3 Technical Report
phi-3
microsoft
small-model
synthetic-data
baseline-selection
hyperparameters
2026년 4월 13일
Qwen Models
qwen2.5
qwen3
alibaba
dense
moe
multilingual
reasoning
baseline-selection
hyperparameters
2026년 4월 13일
Training language models to follow instructions with human feedback - InstructGPT
instructgpt
rlhf
alignment
openai
baseline-selection
hyperparameters
2026년 4월 13일
Yi - Open Foundation Models by 01.AI
yi
01ai
bilingual
chinese
data-quality
baseline-selection
hyperparameters