Phi-4 Technical Report Review
โ ๊ฐ์
-
Phi-4 ๋ชจ๋ธ: 14์ต ํ๋ผ๋ฏธํฐ์ ์ธ์ด ๋ชจ๋ธ๋ก, ๋ฐ์ดํฐ ํ์ง์ ์ค์ ์ ๋ ์๋ก์ด ํ์ต ๋ฐฉ์์ ์ ์ฉ.
-
๊ธฐ์กด Phi-3 ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ฐ๋์์ผ๋, ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ฉ ๋ฐ ์ฌํ ํ์ต(post-training) ํ์ ์ ํตํด ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ .
-
์ฃผ์ ๋ชฉํ: ์ถ๋ก ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐํํ ๋ชจ๋ธ ์ ๊ณต.
-
phi-4์ ๊ฐ๋ฐ์ ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ๋ฅ์ ์ํด ์งํ๋จ.
- ์ฌ์ ํ๋ จ ๋ฐ ์ค๊ฐ ํ๋ จ์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ
- ์ด์ phi ๋ชจ๋ธ ๋๋น ํฉ์ฑ ๋ฐ์ดํฐ์ ๋น์ค ์ฆ๊ฐ
- ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ํตํด ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐํ
- ๊ณ ํ์ง ์ ๊ธฐ ๋ฐ์ดํฐ์ ํ๋ ์ด์
๋ฐ ํํฐ๋ง
- ์น, ๋ ผ๋ฌธ, ์ฝ๋ ์ ์ฅ์ ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ ์ ํ ์ ๋ณํ์ฌ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ์๋๋ก ์ฌ์ฉ
- ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ํ์ต์ ์ง์ ํ์ฉ โ fastText(๋ค๊ตญ์ด), HTML-to-text ๋ณํ๊ธฐ(๋ฐฉ์ ์, ์ฝ๋)
- ๋ชจ๋ธ์ด ๋ค์ํ ํ์คํฌ์์ ๊ณ ๋ฅด๊ฒ ํ์ตํ๋๋ก ๋ฐ์ดํฐ ํผํฉ ์ต์ ํ
- ํฌ์คํธ ํธ๋ ์ด๋ : SFT ๋ฐ์ดํฐ ์ธํธ์ ์๋ก์ด ๊ฐ๋๋ ๋ฒ์ ๊ณผ ํต์ฌ ํ ํฐ ๊ฒ์์ ๊ธฐ๋ฐ์ผ๋ก DPO ์์ ์์ฑํ๋ ์๋ก์ด ๊ธฐ์ ์ ๊ฐ๋ฐ
- ์ฌ์ ํ๋ จ ๋ฐ ์ค๊ฐ ํ๋ จ์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ
-
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด์ ๋ชจ๋ธ ๋๋น STEM QA ๋ฅ๋ ฅ์์ ๊ด๋ชฉํ ๋งํ ์ฑ์ฅ
๐ก์ ๋ฆฌ !

ํ 1: ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋น๊ต

๊ทธ๋ฆผ 1: ์ํ ๋ํ ์ ์ ๋น๊ต (AMC 10/12)
- ๋น๊ต ๋์ : Phi-4, Phi-3, GPT-4o, GPT-4o-mini, Qwen 2.5, Llama-3.3
- ๊ฒฐ๊ณผ
- Phi-4๋ MATH(80.4), GPQA(56.1), HumanEval(82.6) ๋ฑ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์.
- ์: GPQA(๋ํ์ ์์ค STEM ์ง๋ฌธ)์์ GPT-4o๋ณด๋ค ๋์ ์ ์.
- ์ฝ๋ ํ๊ฐ(HumanEval, HumanEval+)์์๋ Llama-3.3 ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ณด๋ค ์ฐ์.
๐ชphi-4 ํ์ต ๋จ๊ณ
| ๋จ๊ณ | ์ฃผ์ ๋ชฉํ | ๋ฐ์ดํฐ |
|---|---|---|
| Pretraining | ์ผ๋ฐ์ ์ธ ์ธ์ด ์ดํด์ ์ง์ ํ์ต | ์น ๋ฐ์ดํฐ, ์์ฐ ๋ฐ์ดํฐ (filtered web data) |
| Midtraining | ํน์ ๋๋ฉ์ธ/์์ ์ ๋ง์ถคํ ๋ฐ ์ปจํ ์คํธ ๊ธธ์ด ํ์ฅ | ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํฐ, ํฉ์ฑ ๋ฐ์ดํฐ, ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ |
| Post-training | ์ฌ์ฉ์ ์ ํธ๋ ๋ฐ์ ๋ฐ ์์ ์ฑ ๊ฐํ | Fine-tuned ๋ฐ์ดํฐ (DPO ๋ฐ์ดํฐ ํฌํจ) |
๐Dataset
ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ฉ
- ๋ชฉ์ :
- ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ , ๋ชจ๋ธ์ด ๋ ์ ๊ตํ ์ถ๋ก ๊ณผ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ์ตํ ์ ์๋๋ก ์ง์.
- ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํ์ต ์ค ๋ถํ์ํ ์ก์์ ์ ๊ฑฐํ๊ณ , ๋ชจ๋ธ์ด ์ ์๋ฏธํ ํจํด์ ํ์ตํ๋๋ก "์คํผํผ๋ฉ(spoonfeeding)" ๋ฐฉ์์ผ๋ก ์ค๊ณ.
- ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๊ธฐ์ :
- Multi-Agent Prompting: ์ฌ๋ฌ AI ๋ชจ๋ธ์ด ํ๋ ฅํด ๋ฐ์ดํฐ๋ฅผ ์์ฑ.
- Self-revision: ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฐ์ดํฐ๋ฅผ ๊ฒํ ํ๊ณ ์์ ํ๋ฉฐ, ๋ ผ๋ฆฌ์ ์ ํ์ฑ์ ๊ฐ์ .
- Instruction Reversal: ์ฝ๋ฉ๊ณผ ๊ฐ์ ์์ ์์ ๋ฌธ์ ๋ฅผ ์ญ์ผ๋ก ์ฌ๊ตฌ์ฑํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ. ์ฝ๋๋ฅผ ๋ณด๊ณ ๋ฌธ์ ์ค๋ช ์ ๋ง๋ค์ด๋ด๋ ๋ฐฉ์.
- Chain of Thought: ๋จ๊ณ๋ณ ์ถ๋ก ๊ณผ์ ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ์ค๊ณ๋ ๋ฐ์ดํฐ.
Alignment with Inference Contexts(์ถ๋ก ๋งฅ๋ฝ ์ ๋ ฌ)
- ์น ํฌ๋ผ์ LLM ๋ํ์ ๋งค์ฐ ๋ค๋ฅธ ์คํ์ผ
- ํฉ์ฑ ๋ฐ์ดํฐ๋ ์น ํฌ๋ผ ๋ฐ์ดํฐ๋ฅผ LLM์ ๋ํ ์คํ์ผ๋ก ๋ค์ ์์ฑํ์ฌ, ์ ๋ณด๋ฅผ ์ถ๋ก ์ ๋ ์ฝ๊ฒ ์ ๊ทผ ํ ์ ์๋๋ก ์ฒ๋ฆฌ
- ์ฆ, ์น ๋ฐ์ดํฐ์ ์คํ์ผ์ LLM ๋ํ ํ์์ผ๋ก ๋ณํํ์ฌ ์ถ๋ก ์ ํ๋ ํฅ์
ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๊ณผ์
50๊ฐ์ง ์ ํ์ ํฉ์ฑ ๋ฐ์ดํฐ์
์์ฑ
๊ฐ ์ ํ์ ์๋ก ๋ค๋ฅธ ์๋(seeds)์ ๋ค๋จ๊ณ ํ๋กฌํํ
์ ์ฐจ์ ๊ธฐ๋ฐ
1. Seed Curation
- ๊ณ ํ์ง ์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์น, ์ฝ๋, ๋์ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ์์ค์์ ์ถ๋ก ์ค์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑ
- ๋ค์๊ฒฐ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ Q&A ์ฌ๊ตฌ์ฑ์ ํตํด ๋์ ํ์ต ํจ๊ณผ๋ฅผ ์ง๋ ๋ฐ์ดํฐ์ ๊ตฌ์ถ
2. Rewrite and Augment
- ๋ค๋จ๊ณ ํ๋กฌํํ ์ํฌํ๋ก๋ฅผ ํตํด ์๋๋ฅผ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๋ณํ
- ์ฃผ์ด์ง ๋จ๋ฝ์ ์ ์ฉํ ์ฝํ ์ธ ๋ฅผ ์ฐ์ต ๋ฌธ์ , ํ ๋ก , ์ฒด๊ณ์ ์ธ ์ถ๋ก ํ์คํฌ๋ก ์ฌ์์ฑ
3. Self-revision
- ์ด๊ธฐ ์๋ต์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ ํผ๋๋ฐฑ ๋ฃจํ
- ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๊ณ ์์ ํ๋ฉฐ ๋ฐ์ดํฐ ํ์ง ํฅ์*
4. Instruction Reversal
- ๊ธฐ์กด ์ฝ๋์์ ๋ฌธ์ ๋ฅผ ์ญ์ผ๋ก ์ฌ๊ตฌ์ฑํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ
5. Validation of Data
- ์ฝ๋์ ๊ณผํ ๋ฐ์ดํฐ๋ฅผ ์คํ ํ ์คํธ ๋ฐ ๋ ผ๋ฆฌ์ ํ๊ฐ๋ฅผ ํตํด ๊ฒ์ฆ
๐ชpretraining
- phi-4 ๋ชจ๋ธ์ 14์ต ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋์ฝ๋ ์ ์ฉ(transformer decoder-only) ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ ๊ธฐ๋ณธ ๋ฌธ๋งฅ ๊ธธ์ด๋ 4K
์ฌ์ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, phi-4 ๋ชจ๋ธ์ ์น ๋ฐ์ดํฐ์ ํฉ์ฑ ๋ฐ์ดํฐ์ ํผํฉํ๋ ์๋ก์ด ๋ฐ์ดํฐ ํผํฉ ์ ๋ต์ ์ฑํํจ

๊ทธ๋ฆผ 2: ํฉ์ฑ ๋ฐ์ดํฐ ๋ฐ๋ณต ํ์ต ํจ๊ณผ
- ๋์ผํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, 4 ์ํฌํฌ์ 12 ์ํฌํฌ ํ์ต ๊ฒฐ๊ณผ ๋น๊ต (5-shot MMLU ์ ์).
- ๊ฒฐ๊ณผ:
-
12 ์ํญ ๋ชจ๋ธ์ด 4 ์ํญ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํจ
-
ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ์์๋ ๊ณผ์ ํฉ(overfitting)์ด ๋ฐ์ํ์ง ์์
โ ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ฐ๋ณต ํ์ต์ด ๋ชจ๋ธ์ ์ถ๋ก ์ฑ๋ฅ์ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ฏธ์นจ
-

ํ 3: ํฉ์ฑ ๋ฐ์ดํฐ์ ์น ๋ฐ์ดํฐ ๋น๊ต
- ๋์ผํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ ํผํฉ์ ๋ฐ๋ฅธ ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋น๊ต
- ๊ฒฐ๊ณผ:
- TriviaQA(์ง์ ์ค์ฌ ๋ฒค์น๋งํฌ)์์ ํฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ ๋ฐ์ํจ
- ์น ๋ฐ์ดํฐ ๋ถ์กฑ์ด ์ฃผ์ ์์ธ์ผ๋ก ์ง๋ชฉ๋จ.
- ์ง์ ํ์คํฌ์์๋ ์น ๋ฐ์ดํฐ์ ์ญํ ์ด ์ค์ํจ
๊ทธ๋ฆผ 2์ ํ3 ํด์
- ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ฐ๋ณต ํ์ต์ ๊ณผ์ ํฉ ์์ด ์ฑ๋ฅ์ ํฅ์ ์ํฌ ์ ์๋ค.
- ์น ๋ฐ์ดํฐ์ ํฉ์ฑ ๋ฐ์ดํฐ ๊ฐ ๊ท ํ ์กํ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ด ์ค์ํ๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๋ฐ์ดํฐ ํผํฉ ๊ตฌ์ฑ
์ฌ์ ํ์ต์ ์ฌ์ฉํ **๋ฐ์ดํฐ ํผํฉ(data mixture)**์ ์ค๊ณํ๊ธฐ ์ํด, ๋ค์ํ ๋ฐ์ดํฐ ์์ค์์ ํ ๋น๋ ํ ํฐ ๋น์จ์ ์กฐ์ ํ๋ ์คํ์ ์งํํจ
1. ๋ฐ์ดํฐ ์์ค ๊ตฌ์ฑ
- Synthetic Data: ํฉ์ฑ ๋ฐ์ดํฐ
- Filtered Web: ํฌ๋กค๋งํ ์น ๋ฐ์ดํฐ๋ฅผ ์ฒ ์ ํ ํํฐ๋งํ ๊ณ ํ์ง ๋ฐ์ดํฐ
- Web Rewrites: ํํฐ๋ง๋ ์น ๋ฐ์ดํฐ๋ฅผ ์ฌ์์ฑํ ๋ฐ์ดํฐ
- Targeted Acquisitions: ํ์ ์๋ฃ, ๋์, ํฌ๋ผ๊ณผ ๊ฐ์ ์ ๊ธฐ์ ๋ฐ์ดํฐ
- Code Data: ์ฝ๋ ๋ฐ์ดํฐ(ํฉ์ฑ ๋ฐ ์์ ์ฝ๋ ํผํฉ)
2. ๋ฐ์ดํฐ ํผํฉ ์คํ

ํ4 ๋ฐ์ดํฐ ํผํฉ ๋น์จ ์ฑ๋ฅ ๋น๊ต
-
Targeted Acquisitions์ Code Data ๋น์จ์ ๊ณ ์
- ์งง์ ํ ํฐ ํ๊ณ(1์กฐ ํ ํฐ)๋ฅผ ๋๊ณ ๋ฐ์ดํฐ ํผํฉ์ ํ์ ํ๊ธฐ ์ํด ํ๊ฐ ์งํ
-
๊ฒฐ๊ณผ:
- Uniform Allocation(๋์ผ ๋น์จ): ์ธ ๋ฐ์ดํฐ(S, W, WR)๋ฅผ ๋์ผํ๊ฒ ํ ๊ฒฝ์ฐ, ์ฑ๋ฅ ์ต์ ์ด ์๋
- S-heavy(ํฉ์ฑ ๋ฐ์ดํฐ ๋์ ๋น์จ): ๋๋ถ๋ถ ๋ฒค์น๋งํฌ์์**(ํ๊ท ์ ์ผ๋ก) ๋ ๋์ ์ฑ๋ฅ์ ๋ํ๋**
- S + W: TQA ๋ฒค์น๋งํฌ์์๋ง ์ด์ ์ ๋ณด์ฌ์ค
-
์ต์ข ๋ฐ์ดํฐ ํผํฉ์ ํฉ์ฑ ๋ฐ์ดํฐ, ์น ๋ฐ์ดํฐ, ์น ๋ฆฌ๋ผ์ดํธ ๊ฐ ๊ท ํ์ ๋ง์ถ๋ฉฐ ๋ชจ๋ ํ์คํฌ๋ฅผ ๊ณ ๋ฅด๊ฒ ๊ฐ์ ํ๋๋ก ์ค๊ณ
3. ์ต์ข ๋ฐ์ดํฐ ํผํฉ ๊ตฌ์ฑ

ํ5 ์ต์ข
๋ฐ์ดํฐ ๋น์จ
- Web & Web Rewrites (30%):
- ์ ์ฒด์ 30%(๊ฐ๊ฐ 15%์ฉ) ํ ๋น๋จ.
- Synthetic Data (40%):
- ์ ์ฒด์ 40% ํ ๋นํ๋ฉฐ ์ฃผ์ ๋ฐ์ดํฐ ์์ค๋ก ํ์ฉ.
- Code Data (20%):
- ํฉ์ฑ ๋ฐ ์์ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉ.
- Targeted Acquisitions (10%):
- ํ์ ์๋ฃ, ๋์ ๋ฑ ์ ๊ธฐ์ ๋ฐ์ดํฐ๋ฅผ ํฌํจ.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๐ชMidtraining
- ๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ ๊ธฐ์กด 4K์์ 16K๋ก ํ์ฅ.
- ๊ธด ๋ฌธ๋งฅ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์์ฑ ๋ฐ ํ์ฉ.

ํ 2: Phi-4(16K ์ปจํ
์คํธ)์ Phi-3 ๋น๊ต

ํ 4: ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ๋ณํ์ ๋ฐ๋ฅธ ์ฑ๋ฅ
- Synthetic(S), Web(W), Web Rewrite(WR) ๋ฐ์ดํฐ์ ๋น์ค.
- Synthetic ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ์ฌ์ฉํ ์๋ก MMLU, MATH ๋ฑ ์ถ๋ก ์ค์ฌ ์์ ์์ ์ฑ๋ฅ์ด ๋ ์ข์.
- Web ๋ฐ์ดํฐ๋ TQA์ ๊ฐ์ ์ง์ ๊ธฐ๋ฐ ์์ ์์ ํจ๊ณผ์ .

ํ 5: ์ฌ์ ํ์ต ๋ฐ์ดํฐ ํผํฉ ๋น์จ
- ๊ตฌ์ฑ ๋น์จ:
- Synthetic: 40% (290B ํ ํฐ, 13.8 epoch)
- Web + Web Rewrite: 30%
- Code Data: 20%
- Acquired Sources: 10% (Academic, Books ๋ฑ)
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
- 30%: ์๋ก ํ๋ ์ด์
ํ ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํฐ
- ํ์ ์๋ฃ, ์ฑ , ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ 16K ์ด์์ ์ํ์ ์ ๋ณ
- 70%: ์ฌ์ ํ์ต ๋จ๊ณ์์ ์ฌ์ฉ๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ํ ํฐ
์ค๊ฐ ํ์ต ํ๊ฐ
- HELMET ๋ฒค์น๋งํฌ๋ฅผ ํตํด ์ฑ๋ฅ ํ๊ฐ
- ๊ฒฐ๊ณผ:
- ICL(68โ77), Re-rank(65.3โ75.4), QA(26.7โ36) ํญ๋ชฉ์์ ๋์ ๋๊ฒ ๊ฐ์ ๋จ
- ๋ฌธ๋งฅ ๊ธธ์ด ํ์ฅ์ด ์ฑ๋ฅ ๊ฐ์ ์ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค
[์ฐธ๊ณ ] 6๊ฐ์ง ํ๊ฐ ํญ๋ชฉ
์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ๋ฐ์ํ HELMET ํ๊ฐ ์ธํธ๋ฅผ ์ฌ์ฉํด ๊ธด ๋ฌธ๋งฅ์์์ ์ฑ๋ฅ ํ๊ฐ.
ํ๊ฐ๋ ๊ฐ ํ์คํฌ์์ 5๋ฒ ๋ฐ๋ณต ์คํํ ํ๊ท ๊ฐ์ผ๋ก ๋ณด๊ณ .
- Recall (SubEM)
- ํ์คํฌ: ๊ธด JSON ํ์ผ์์ ํน์ ํค์ ํด๋นํ๋ ๊ฐ์ ๊ฒ์.
- ๋ฐ์ดํฐ์ : ๋๋ค ์์ฑ JSON ํ์ผ.
- RAG (SubEM)
- ํ์คํฌ: ๋ง์ ์ํค๋ฐฑ๊ณผ ๋ฌธ์๋ฅผ ๊ฒ์ ๋ฐ ์ ํํ ํ ์ง๋ฌธ์ ๋ต๋ณ.
- ๋ฐ์ดํฐ์ : NaturalQuestions, HotpotQA, PopQA.
- ๊ฒฐ๊ณผ: ๋ฐ์ดํฐ์ ํ๊ท .
- Re-rank (nDCG@10)
- ํ์คํฌ: ์ฟผ๋ฆฌ์ ๋ง์ ๊ฒ์ ๋ฌธ์๊ฐ ์ฃผ์ด์ก์ ๋, ์์ 10๊ฐ ๋ฌธ์๋ฅผ ์ฌ์ ๋ ฌ.
- ๋ฐ์ดํฐ์ : MSMARCO.
- ICL (F1)
- ํ์คํฌ: ์ฌ๋ฌ ์ท์ In-Context Learning.
- ๋ฐ์ดํฐ์ : TREC coarse, TREC fine, Banking77, NLU, CLINC150.
- ๊ฒฐ๊ณผ: ๋ฐ์ดํฐ์ ํ๊ท .
- QA (GPT-4o scoring)
- ํ์คํฌ: ๊ธด ๋ฌธ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง๋ฌธ์ ๋ต๋ณ.
- ๋ฐ์ดํฐ์ : NarrativeQAv2.
- Summ (GPT-4o scoring)
- ํ์คํฌ: ๊ธด ๋ฒ๋ฅ ๋ฌธ์๋ฅผ ์์ฝ.
- ๋ฐ์ดํฐ์ : MultiLexSum.

ํ6 HELMET ๋ฒค์น๋งํฌ์์ long-context ํ๊ฐ ๊ฒฐ๊ณผ
- ํ๊ฐ ํญ๋ชฉ: Recall, RAG, QA, Summarization ๋ฑ.
- ๊ฒฐ๊ณผ: Phi-4๋ ๊ธด ๋ฌธ๋งฅ(16K ์ปจํ ์คํธ)์์ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ๋น๊ฒฌ๋๋ ์ฑ๋ฅ์ ๋ฐํ.
๐ชpost training

ํ 7 & 8: DPO ๋ฐ์ดํฐ ํผํฉ
- ํ 7: ์ฒซ ๋ฒ์งธ DPO ๋จ๊ณ(Pivotal Token DPO) ๋ฐ์ดํฐ.
- ์ฃผ์ ํญ๋ชฉ: ์ํ ๋ฐ์ดํฐ(76,552), Python ์ฝ๋(16,080).
- ํ 8: ๋ ๋ฒ์งธ DPO ๋จ๊ณ(Judge-Guided DPO) ๋ฐ์ดํฐ.
- ๋ฐ์ดํฐ ์ดํฉ: ์ฝ 850,000 ์ํ.
- ์์ ์ฑ ๋ฐ ์ ํ์ฑ ํฅ์์ ์ํด GPT-4o ๊ธฐ๋ฐ ํ๋จ ์ถ๊ฐ.
โ DPO ๊ณผ์
DPO[1]๋ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ๊ฐ ๋จ๊ณ์์ ๋ฐ์ดํฐ ์(pairs of desired and undesired outputs)์ ํ์ฉ
(1) ์ฒซ ๋ฒ์งธ ๋จ๊ณ: Pivotal Token Search (PTS) ๊ธฐ๋ฐ DPO
- ๊ธฐ๋ฒ:
- Pivotal Token Search (PTS)๋ฅผ ์ฌ์ฉํ์ฌ ์ค์ ํ ํฐ(pivotal tokens)์ ์๋ณ
- PTS๋ฅผ ํตํด ๊ธ์ ์ ์ธ ์๋ต๊ณผ ๋ถ์ ์ ์ธ ์๋ต์ ๋ฐ์ดํฐ ์์ ์์ฑํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
- ํจ๊ณผ:
- ์ํ, ์ฝ๋ฉ, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ ์ถ๋ก ์์ ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์ ์ํด
(2) ๋ ๋ฒ์งธ ๋จ๊ณ: Judge-Guided DPO
- ๋ฐ์ดํฐ ์์ฑ:
- ์ฝ 85๋ง ๊ฐ์ ๋ฐ์ดํฐ ์(850k pairs)์ ์์ฑ
- ํ๋กฌํํธ๋ ๊ณต๊ฐ๋ instruction tuning datasets ๋ฐ ์์ ์ฑ(Responsible AI, RAI) ๊ด๋ จ ํ๋กฌํํธ์์ ์์ง
- ์๋ต ์์ฑ ๋ฐ ํ๊ฐ:
-
๊ฐ ํ๋กฌํํธ์ ๋ํด GPT-4o, GPT-4t, Phi-4 ๋ชจ๋ธ์์ ์์ฑ๋ ์๋ต์ ์์ง
-
์์ฑ๋ ์๋ต ์์์ GPT-4o๋ฅผ ์ฌํ(judge)์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ ๊ธฐ์ค์ผ๋ก ๊ธ์ ์ /๋ถ์ ์ ์๋ต์ ๋ถ๋ฅ:
- ์ ํ์ฑ(Accuracy).
- ์คํ์ผ(Style).
- ์ธ๋ถ์ฑ(Detail).
-
ํ๊ท ์ ์ ๋๋ ์ ํ์ฑ ๊ธฐ์ค์ผ๋ก ๊ธ์ ์๋ต์ ์ ํ
-
Pivotal Token์ ๊ฐ๋
-
์ผ๋ถ ํ ํฐ์ ์ฑ๊ณต ํ๋ฅ ์ ๊ธ๊ฒฉํ ๋ณํ๋ฅผ ์ ๋ฐํ๋ฉฐ, ์ด๋ฌํ ํ ํฐ์ Pivotal Token์ด๋ผ๊ณ ํจ.
-
๋ชจ๋ธ์ด ํ๋กฌํํธ์ ๋ํด ์๋ต์ ์์ฑํ ๋, ๊ฐ ํ ํฐ์
$$
p(successโฃt1,...,ti)
$$์ ์กฐ๊ฑด๋ถ ์ฑ๊ณต ํ๋ฅ ์ ๊ธฐ์ฌ ํจ
-
์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ํ์ด ๊ณผ์ ์์ ์ค์ํ ๋จ์ด(์: "๊ณฑ์ " ๋๋ "๋ถํธ")๊ฐ ๊ฒฐ๊ณผ์ ์ฑ๊ณต๊ณผ ์คํจ๋ฅผ ๊ฒฐ์ ์ง๋ ์ญํ ์ ํ ์ ์์.

ํ9: ์ฌํํ์ต(Post-training) ๋ฒค์น๋งํฌ ์ ์
- ํน์ ํ ํฐ(์: "negative")์ด ๊ฒฐ๊ณผ์ ์ค์ํ ์ํฅ์ ๋ฏธ์นจ.
- ์ถ๋ก ์ฑ๊ณต ํ๋ฅ ์ ํฌ๊ฒ ๊ธฐ์ฌํ๋ ํ ํฐ์ ํ์ต ๋์์ผ๋ก ์ค์ .
์ฃผ์ด์ง ํ๋กฌํํธ์ ๋ํ ํ ํฐ๋ณ ์๋ต์ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ์ ๊ณ ๋ คํจ. ๋ชจ๋ธ ์๋ต์ ํด๋นํ๋ ์์ฑ๋ ๊ฐ ํ ํฐ์ ๋ํด ํด๋น ํ ํฐ์ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ์ ๋ต๋ณ์ด ์ณ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๊ณผ ํด๋น ํ ํฐ์ ๋ํ ์ด ํ๋ฅ ์ ์ฆ๊ฐ๋ถ(์ฆ, ํด๋น ํ ํฐ์ ์์ฑํ๊ธฐ ์ ๊ณผ ํ์ ์ณ์ ํ๋ฅ ์ ์ฐจ์ด)์ ๊ณ ๋ ค

๊ทธ๋ฆผ 4: ํผ๋ณดํ ํ ํฐ(Pivotal Token) ํ์ง ์์
ํผ๋ดํ ํ ํฐ ์๊ณ ๋ฆฌ์ฆ
(1) Subdivide ํจ์ -> ์ฌ๊ท ํ์ ์์
(2) Pivotal Token ํ์ง -> ๋ณํ๋์ด ๐gap์ด์์ด๋ฉด ํผ๋ดํ ํ ํฐ ์๋ณ
(3) ๋ฐ๋ณต ๋ฐ ์ถ๋ ฅ
(4) t-acc, t-rej ์ ๋ณ

๊ทธ๋ฆผ 5: ํผ๋ดํ ๋ฐ์ดํฐ
PTS ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ ์์ฑ ํ๋ฆ
- ์ฑ๊ณต ํ๋ฅ ๋ถ์:
- ๊ฐ ํ ํฐ์ด ์๋ต์ ์ฑ๊ณต ํ๋ฅ ์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ์ฐ.
- ์ฑ๊ณต ํ๋ฅ ์ด pgap(์๊ณ๊ฐ) ์ด์ ๋ณํํ๋ ํ ํฐ์ ํ์ง.
- Good/Bad ์๋ต ๋ถ๋ฅ:
- Good ์๋ต: ์ฑ๊ณต ํ๋ฅ ์ ๋์ด๋ ํผ๋ณดํ ํ ํฐ ํฌํจ.
- Bad ์๋ต: ์ฑ๊ณต ํ๋ฅ ์ ๋ฎ์ถ๊ฑฐ๋ ๋ฌด๊ดํ ํ ํฐ ํฌํจ.
- ํ์ต ๋ฐ์ดํฐ ์์ฑ:
- ํ์ง๋ ํผ๋ณดํ ํ ํฐ์ ๊ธฐ๋ฐ์ผ๋ก ๊ธ์ /๋ถ์ ํ์ต ๋ฐ์ดํฐ ์์ ์์ฑ.

๊ทธ๋ฆผ 6: SimpleQA ์ฑ๋ฅ ๋ณํ
- ์ ๋ต๋ฅ (Correct): ์ง๋ฌธ์ ๋ํด ์ ํํ ๋ต๋ณํ ๋น์จ.
- ๋น์๋ต๋ฅ (Not attempted): ๋ชจ๋ธ์ด ๋ต๋ณ์ ์๋ํ์ง ์์ ๋น์จ.
- ์ค๋ต๋ฅ (Incorrect): ์ง๋ฌธ์ ๋ํด ์๋ชป๋ ๋ต๋ณ์ ์์ฑํ ๋น์จ.
์ฌํ ํ์ต ๊ณผ์ ์์ ์๋ชป๋ ์ถ๋ก ์ด ๊ฐ์ํ๊ณ , ๋ชจ๋ธ์ด ๋ต๋ณ์ ํฌ๊ธฐ(not attempted)ํ๋ ๋น์จ์ด ์ฆ๊ฐ.
๋ ๋์ ์ฌ์ฉ์ ๊ฒฝํ์ ์ํด ๊ณ ๋ํ๋ ํ์ต ์ ๋ต์ด ๋ฐ์๋จ.
- Base SFT:
- ์ ๋ต ๋น์จ: ์ฝ 6.8%.
- ๋ชจ๋ธ์ด ๋จ์ํ ์ง๋ฌธ์๋ ์๋ชป๋ ์๋ต(ํ๊ฐ)์ ์์ฃผ ์์ฑ.
- ์ค๋ต ๋น์จ: ๋๋ถ๋ถ์ ์๋ต์ด ์๋ชป๋ ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ.
- ์ ๋ต ๋น์จ: ์ฝ 6.8%.
- DPO 1๋จ๊ณ:
- ์ ๋ต ๋น์จ ์ฆ๊ฐ: ์ฝ 57.5%.
- PTS๋ก ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ฉด์ ๋ชจ๋ธ์ด ๋ ๋ง์ ์ง๋ฌธ์ ์ ํํ๊ฒ ๋ต๋ณ.
- ๋น์๋ต ๋น์จ ์ฆ๊ฐ: ํ๊ฐ ๋์ ์ง๋ฌธ์ ์๋ํ์ง ์๋ ์๋ต์ด ์ฆ๊ฐ.
- ๋ชจ๋ธ์ด ํ์คํ์ง ์์ ๊ฒฝ์ฐ ์ค๋ต์ ์์ฑํ์ง ์๊ณ ์๋ต์ ํํผํ๋๋ก ํ์ต๋จ.
- ์ค๋ต ๋น์จ ๊ฐ์: ์ฝ 10% ๋ฏธ๋ง.
- ์ ๋ต ๋น์จ ์ฆ๊ฐ: ์ฝ 57.5%.
- DPO 2๋จ๊ณ:
- ์ ๋ต ๋น์จ ์ต์ข
์ฆ๊ฐ: ์ฝ 81.1%.
- Judge-Guided ํ๊ฐ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๋ฉด์ ์ ๋ต๋ฅ ์ด ๋ํญ ์์น.
- ๋น์๋ต ๋น์จ ์ฝ๊ฐ ๊ฐ์: ๋น์๋ต ๋น์จ์ด ๊ฐ์ํ๋ฉด์ ๋ชจ๋ธ์ ์์ ๊ฐ์ด ๋์์ง.
- ์ค๋ต ๋น์จ ์ต์ํ: ์ฝ 3.0%๋ก ๋ฎ์์ง.
- ์ ๋ต ๋น์จ ์ต์ข
์ฆ๊ฐ: ์ฝ 81.1%.

ํ 9: ์ฌํ ํ์ต ๊ณผ์ ์ค ๋ฒค์น๋งํฌ ๋ณํ
- DPO(์ ํธ ์ต์ ํ) ๋จ๊ณ๋ณ ์ฑ๋ฅ:
- GPQA(47.3 โ 56.1), MATH(77.1 โ 80.4) ๋ฑ์์ ์ง์์ ์ธ ์ฑ๋ฅ ํฅ์.
- ํน์ง: ์ฒซ ๋ฒ์งธ DPO(ํผ๋ณดํ ํ ํฐ ๊ธฐ๋ฐ)๋ ์ถ๋ก ๊ฐํ์ ํจ๊ณผ์ ์ด๊ณ , ๋ ๋ฒ์งธ DPO(ํ๋จ ๊ธฐ๋ฐ)๋ ์คํ์ผ ๋ฐ ํํ์ ๊ฐ์ .

ํ 10: RAI(์ฑ
์ ์๋ AI) ๋ฒค์น๋งํฌ
Phi-4๋ ์ ํด ์ฝํ ์ธ ์์ฑ ๊ฐ๋ฅ์ฑ(0.036) ๋ฐ ํ์ถ(jailbreak) ์๋(0.073)์์ ๋ฎ์ ๊ฒฐํจ๋ฅ ์ ๋ณด์.
RAI ๊ธฐ์ค์ ์ถฉ์กฑํ๋ฉฐ, ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ๋์ ์์ ์ฑ๊ณผ ์ ํ์ฑ์ ๋ณด์ฌ์ค.
QA
backbone model์?
Phi-4๋ Phi-3-medium์ ๊ธฐ๋ฐ์ผ๋ก ํจ
Phi-3์ ์ํคํ
์ฒ๋ llama 2์ ์ํคํ
์ฒ๋ฅผ ๋ฐ๋ฆ
4k โ 16k ๋ณ๊ฒฝ ์ด์
๊ธด ๋ฌธ๋งฅ์ด ํ์ํ ์์ (์: ๊ธด ๋ฌธ์ ์์ฝ, ์ฝ๋ ๋ถ์, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ง์)์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ปจํ ์คํธ ๊ธธ์ด์ ํ์ฅ์ด ํ์ํ์
๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ ์ด๊ธฐ ํ์ต์์ ๋งค์ฐ ๋ถ์์ ํ๊ฒ ์๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์
๋ฐ๋ผ์ 4K ํ์ต์์ ์ถ์ ๋ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก 16K ํ์ต์ ์งํํ๋ฉด, ๊ธด ๋ฌธ๋งฅ์์๋ ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅ
์ค๊ฐํ์ต 70%์ ์ฌ์ฌ์ฉ๋ ๊ธฐ์กด ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด ์๋?
๊ตฌ์ฒด์ ์ธ ์์น๋ ์คํ๋์ด ์์ง ์์ง๋ง ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ์ฌ์ฌ์ฉ ํ ๊ฒ์ ์๋๊ณ ์ํ๋ง์ ํด์ ๋น์จ์ ๋ง์ถ์๋ค๊ณ ํ๋ค.
Trivia
DPO 1, 2์ ์์๊ฐ ๋ฐ๋๋ฉด ์ฑ๋ฅ์ ์ํฅ์ด ์์๊น?
์๋ง ๊ทธ๋ฌํ ๊ฒ์ด๋ค. Judge์ ๊ฒฝ์ฐ ์ ๋ณด๋์ ์ค์ด๋ ํจ๊ณผ๊ฐ ์์ด ๊ฐ์ฅ ๋ง์ง๋ง ๋จ๊ณ์ ๋ฃ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ์กฐ๊ธ ์ ํ๋๊ฐ ๋จ์ด์ง๋ ์ ๋ณด์ฌ๋ ์ต๋ํ ํ์ต์ํค๊ณ ๋์ค์ ์๋ชป ๋์๋ค๋ ๊ฐ์ค์น๋ฅผ ๋ฐ์ ์ถ๋ ฅ์ผ๋ก ๊ฐ์ง ๋ชปํ๊ฒ ํ๋ ๊ฒ์ด (์ญ์ ๋ ํํ์ต-unlearing์ด ์๋) ์ฑ๋ฅ ์ธก๋ฉด์์๋ ์ ๋ฆฌํ ๋ฉด์ด ์๋ค.
Direct Preference Optimization โฉ๏ธ