Introduction

Word-level : ‘apple’, ‘apples’, ‘apple-like’ 와 같은 단어들을 별개로 취급하니, OOV(Out-Of-VOCA) 문제가 있으므.
Character-level : OOV 문제는 없지만, 문장이 너무 길어지고 char-level에 semantics가 담긴다고 보기는 어려움.
→ BPE 제안.

BPE

가상의 데이터셋에 다음과 같은 단어들이 빈도수와 함께 있다고 가정해 봅시다.

데이터셋:

모든 단어를 글자로 쪼개고 빈도를 셉니다.

현재 어휘 집합(Vocab): {l, o, w, e, r, n, s, t, i, d}

모든 인접한 쌍의 빈도를 셉니다.

lo: 7회 (low 5 + lower 2)
ow: 7회
we: 8회 (lower 2 + newest 6) …등등
es: 9회 (newest 6 + widest 3)
st: 9회 (newest 6 + widest 3)

가장 빈도가 높은 e와 s를 합쳐 **es**라는 새 토큰을 만듭니다. (동점일 경우 보통 먼저 나오는 걸 선택)

업데이트된 데이터:

다시 쌍을 셉니다. 이번에는 es와 t가 자주 붙어 나옵니다.

업데이트된 데이터:

이 과정을 계속 반복하면, low도 하나의 토큰이 될 수 있습니다. 최종적으로, 처음 보는 단어인 **lowest**가 입력으로 들어온다면?