Phi-4 Technical Report Review

Phi-4 Technical Report Review
phi-4 model at huggingface
๐Ÿ’ก
์กฐ์ฐฌ์˜ ์—ฐ๊ตฌ์›, ๊น€์šฉ์—ฐ ์—ฐ๊ตฌ์›์ด Phi-4 ํ…Œํฌ ๋ฆฌํฌํŠธ๋ฅผ ์ฝ๊ณ  ์ž‘์„ฑํ•œ ์š”์•ฝ์„ ์žฌ๊ตฌ์„ฑ ํ•œ ํฌ์ŠคํŒ…์ž…๋‹ˆ๋‹ค.

โœ…๊ฐœ์š”

  • Phi-4 ๋ชจ๋ธ: 14์–ต ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์— ์ค‘์ ์„ ๋‘” ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐฉ์‹์„ ์ ์šฉ.

  • ๊ธฐ์กด Phi-3 ๋ชจ๋ธ์˜ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋‚˜, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํ™œ์šฉ ๋ฐ ์‚ฌํ›„ ํ•™์Šต(post-training) ํ˜์‹ ์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ .

  • ์ฃผ์š” ๋ชฉํ‘œ: ์ถ”๋ก  ๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ ๋ชจ๋ธ ์ œ๊ณต.

  • phi-4์˜ ๊ฐœ๋ฐœ์€ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ธฐ๋‘ฅ์— ์˜ํ•ด ์ง„ํ–‰๋จ.

    1. ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ ์ค‘๊ฐ„ ํ›ˆ๋ จ์„ ์œ„ํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ
      • ์ด์ „ phi ๋ชจ๋ธ ๋Œ€๋น„ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ๋น„์ค‘ ์ฆ๊ฐ€
      • ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”
    2. ๊ณ ํ’ˆ์งˆ ์œ ๊ธฐ ๋ฐ์ดํ„ฐ์˜ ํ๋ ˆ์ด์…˜ ๋ฐ ํ•„ํ„ฐ๋ง
      • ์›น, ๋…ผ๋ฌธ, ์ฝ”๋“œ ์ €์žฅ์†Œ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ ์ €ํžˆ ์„ ๋ณ„ํ•˜์—ฌ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์‹œ๋“œ๋กœ ์‚ฌ์šฉ
      • ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ ํ•™์Šต์— ์ง์ ‘ ํ™œ์šฉ โ†’ fastText(๋‹ค๊ตญ์–ด), HTML-to-text ๋ณ€ํ™˜๊ธฐ(๋ฐฉ์ •์‹, ์ฝ”๋“œ)
      • ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์—์„œ ๊ณ ๋ฅด๊ฒŒ ํ•™์Šตํ•˜๋„๋ก ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ตœ์ ํ™”
    3. ํฌ์ŠคํŠธ ํŠธ๋ ˆ์ด๋‹ : SFT ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ƒˆ๋กœ์šด ๊ฐœ๋Ÿ‰๋œ ๋ฒ„์ „๊ณผ ํ•ต์‹ฌ ํ† ํฐ ๊ฒ€์ƒ‰์„ ๊ธฐ๋ฐ˜์œผ๋กœ DPO ์Œ์„ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ๊ฐœ๋ฐœ
  • ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด์ „ ๋ชจ๋ธ ๋Œ€๋น„ STEM QA ๋Šฅ๋ ฅ์—์„œ ๊ด„๋ชฉํ•  ๋งŒํ•œ ์„ฑ์žฅ


๐Ÿ’ก์ •๋ฆฌ !

ํ‘œ 1: ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ๋น„๊ต
ํ‘œ 1: ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ๋น„๊ต

๊ทธ๋ฆผ 1: ์ˆ˜ํ•™ ๋Œ€ํšŒ ์ ์ˆ˜ ๋น„๊ต (AMC 10/12)
๊ทธ๋ฆผ 1: ์ˆ˜ํ•™ ๋Œ€ํšŒ ์ ์ˆ˜ ๋น„๊ต (AMC 10/12)

  • ๋น„๊ต ๋Œ€์ƒ : Phi-4, Phi-3, GPT-4o, GPT-4o-mini, Qwen 2.5, Llama-3.3
  • ๊ฒฐ๊ณผ
    • Phi-4๋Š” MATH(80.4), GPQA(56.1), HumanEval(82.6) ๋“ฑ ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž„.
    • ์˜ˆ: GPQA(๋Œ€ํ•™์› ์ˆ˜์ค€ STEM ์งˆ๋ฌธ)์—์„œ GPT-4o๋ณด๋‹ค ๋†’์€ ์ ์ˆ˜.
    • ์ฝ”๋“œ ํ‰๊ฐ€(HumanEval, HumanEval+)์—์„œ๋„ Llama-3.3 ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜.

๐Ÿชœphi-4 ํ•™์Šต ๋‹จ๊ณ„

๋‹จ๊ณ„ ์ฃผ์š” ๋ชฉํ‘œ ๋ฐ์ดํ„ฐ
Pretraining ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ์ดํ•ด์™€ ์ง€์‹ ํ•™์Šต ์›น ๋ฐ์ดํ„ฐ, ์ž์—ฐ ๋ฐ์ดํ„ฐ (filtered web data)
Midtraining ํŠน์ • ๋„๋ฉ”์ธ/์ž‘์—…์— ๋งž์ถคํ™” ๋ฐ ์ปจํ…์ŠคํŠธ ๊ธธ์ด ํ™•์žฅ ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํ„ฐ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ, ๋„๋ฉ”์ธ ํŠนํ™” ๋ฐ์ดํ„ฐ
Post-training ์‚ฌ์šฉ์ž ์„ ํ˜ธ๋„ ๋ฐ˜์˜ ๋ฐ ์•ˆ์ „์„ฑ ๊ฐ•ํ™” Fine-tuned ๋ฐ์ดํ„ฐ (DPO ๋ฐ์ดํ„ฐ ํฌํ•จ)

๐Ÿ“‚Dataset

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํ™œ์šฉ

  • ๋ชฉ์ :
    • ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ๋ชจ๋ธ์ด ๋” ์ •๊ตํ•œ ์ถ”๋ก ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›.
    • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ์ค‘ ๋ถˆํ•„์š”ํ•œ ์žก์Œ์„ ์ œ๊ฑฐํ•˜๊ณ , ๋ชจ๋ธ์ด ์œ ์˜๋ฏธํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๋„๋ก "์Šคํ‘ผํ”ผ๋”ฉ(spoonfeeding)" ๋ฐฉ์‹์œผ๋กœ ์„ค๊ณ„.
  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ธฐ์ˆ :
    • Multi-Agent Prompting: ์—ฌ๋Ÿฌ AI ๋ชจ๋ธ์ด ํ˜‘๋ ฅํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ.
    • Self-revision: ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒ€ํ† ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ฉฐ, ๋…ผ๋ฆฌ์™€ ์ •ํ™•์„ฑ์„ ๊ฐœ์„ .
    • Instruction Reversal: ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ๋ฌธ์ œ๋ฅผ ์—ญ์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ. ์ฝ”๋“œ๋ฅผ ๋ณด๊ณ  ๋ฌธ์ œ ์„ค๋ช…์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐฉ์‹.
    • Chain of Thought: ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก  ๊ณผ์ •์„ ๋ชจ๋ธ์— ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ฐ์ดํ„ฐ.

Alignment with Inference Contexts(์ถ”๋ก  ๋งฅ๋ฝ ์ •๋ ฌ)

  • ์›น ํฌ๋Ÿผ์€ LLM ๋Œ€ํ™”์™€ ๋งค์šฐ ๋‹ค๋ฅธ ์Šคํƒ€์ผ
  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ์›น ํฌ๋Ÿผ ๋ฐ์ดํ„ฐ๋ฅผ LLM์˜ ๋Œ€ํ™” ์Šคํƒ€์ผ๋กœ ๋‹ค์‹œ ์ž‘์„ฑํ•˜์—ฌ, ์ •๋ณด๋ฅผ ์ถ”๋ก  ์‹œ ๋” ์‰ฝ๊ฒŒ ์ ‘๊ทผ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ฒ˜๋ฆฌ
  • ์ฆ‰, ์›น ๋ฐ์ดํ„ฐ์˜ ์Šคํƒ€์ผ์„ LLM ๋Œ€ํ™” ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ถ”๋ก  ์ •ํ™•๋„ ํ–ฅ์ƒ

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ณผ์ •

50๊ฐ€์ง€ ์œ ํ˜•์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ
๊ฐ ์œ ํ˜•์€ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๋“œ(seeds)์™€ ๋‹ค๋‹จ๊ณ„ ํ”„๋กฌํ”„ํŒ… ์ ˆ์ฐจ์— ๊ธฐ๋ฐ˜

1. Seed Curation

  • ๊ณ ํ’ˆ์งˆ ์‹œ๋“œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์›น, ์ฝ”๋“œ, ๋„์„œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์—์„œ ์ถ”๋ก  ์ค‘์‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ
  • ๋‹ค์ˆ˜๊ฒฐ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ Q&A ์žฌ๊ตฌ์„ฑ์„ ํ†ตํ•ด ๋†’์€ ํ•™์Šต ํšจ๊ณผ๋ฅผ ์ง€๋‹Œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

2. Rewrite and Augment

  • ๋‹ค๋‹จ๊ณ„ ํ”„๋กฌํ”„ํŒ… ์›Œํฌํ”Œ๋กœ๋ฅผ ํ†ตํ•ด ์‹œ๋“œ๋ฅผ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜
  • ์ฃผ์–ด์ง„ ๋‹จ๋ฝ์˜ ์œ ์šฉํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์—ฐ์Šต ๋ฌธ์ œ, ํ† ๋ก , ์ฒด๊ณ„์ ์ธ ์ถ”๋ก  ํƒœ์Šคํฌ๋กœ ์žฌ์ž‘์„ฑ

3. Self-revision

  • ์ดˆ๊ธฐ ์‘๋‹ต์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„
    • ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํ–ฅ์ƒ*

4. Instruction Reversal

  • ๊ธฐ์กด ์ฝ”๋“œ์—์„œ ๋ฌธ์ œ๋ฅผ ์—ญ์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

5. Validation of Data

  • ์ฝ”๋“œ์™€ ๊ณผํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ์‹คํ–‰ ํ…Œ์ŠคํŠธ ๋ฐ ๋…ผ๋ฆฌ์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๊ฒ€์ฆ

๐Ÿช„pretraining

  • phi-4 ๋ชจ๋ธ์€ 14์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋””์ฝ”๋” ์ „์šฉ(transformer decoder-only) ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜ ๊ธฐ๋ณธ ๋ฌธ๋งฅ ๊ธธ์ด๋Š” 4K

์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ

๋‘ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, phi-4 ๋ชจ๋ธ์€ ์›น ๋ฐ์ดํ„ฐ์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์„ ํ˜ผํ•ฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ „๋žต์„ ์ฑ„ํƒํ•จ

๊ทธ๋ฆผ 2: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋ฐ˜๋ณต ํ•™์Šต ํšจ๊ณผ
๊ทธ๋ฆผ 2: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋ฐ˜๋ณต ํ•™์Šต ํšจ๊ณผ

  • ๋™์ผํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, 4 ์—ํฌํฌ์™€ 12 ์—ํฌํฌ ํ•™์Šต ๊ฒฐ๊ณผ ๋น„๊ต (5-shot MMLU ์ ์ˆ˜).
  • ๊ฒฐ๊ณผ:
    • 12 ์—ํญ ๋ชจ๋ธ์ด 4 ์—ํญ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•จ

    • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Œ์—๋„ ๊ณผ์ ํ•ฉ(overfitting)์ด ๋ฐœ์ƒํ•˜์ง€ ์•Š์Œ

      โ†’ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ๋ฐ˜๋ณต ํ•™์Šต์ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ์„ฑ๋Šฅ์— ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นจ

ํ‘œ 3: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ์›น ๋ฐ์ดํ„ฐ ๋น„๊ต
ํ‘œ 3: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ์›น ๋ฐ์ดํ„ฐ ๋น„๊ต

  • ๋™์ผํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์— ๋”ฐ๋ฅธ ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ๋น„๊ต
  • ๊ฒฐ๊ณผ:
    • TriviaQA(์ง€์‹ ์ค‘์‹ฌ ๋ฒค์น˜๋งˆํฌ)์—์„œ ํฐ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๋ฐœ์ƒํ•จ
    • ์›น ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์ด ์ฃผ์š” ์›์ธ์œผ๋กœ ์ง€๋ชฉ๋จ.
      • ์ง€์‹ ํƒœ์Šคํฌ์—์„œ๋Š” ์›น ๋ฐ์ดํ„ฐ์˜ ์—ญํ• ์ด ์ค‘์š”ํ•จ

๊ทธ๋ฆผ 2์™€ ํ‘œ3 ํ•ด์„

  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ๋ฐ˜๋ณต ํ•™์Šต์€ ๊ณผ์ ํ•ฉ ์—†์ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
  • ์›น ๋ฐ์ดํ„ฐ์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ท ํ˜• ์žกํžŒ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์ด ์ค‘์š”ํ•˜๋‹ค.

โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”

๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๊ตฌ์„ฑ

์‚ฌ์ „ ํ•™์Šต์— ์‚ฌ์šฉํ•  **๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ(data mixture)**์„ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•ด, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์—์„œ ํ• ๋‹น๋œ ํ† ํฐ ๋น„์œจ์„ ์กฐ์ •ํ•˜๋Š” ์‹คํ—˜์„ ์ง„ํ–‰ํ•จ

1. ๋ฐ์ดํ„ฐ ์†Œ์Šค ๊ตฌ์„ฑ

  • Synthetic Data: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ
  • Filtered Web: ํฌ๋กค๋งํ•œ ์›น ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ ์ €ํžˆ ํ•„ํ„ฐ๋งํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ
  • Web Rewrites: ํ•„ํ„ฐ๋ง๋œ ์›น ๋ฐ์ดํ„ฐ๋ฅผ ์žฌ์ž‘์„ฑํ•œ ๋ฐ์ดํ„ฐ
  • Targeted Acquisitions: ํ•™์ˆ  ์ž๋ฃŒ, ๋„์„œ, ํฌ๋Ÿผ๊ณผ ๊ฐ™์€ ์œ ๊ธฐ์  ๋ฐ์ดํ„ฐ
  • Code Data: ์ฝ”๋“œ ๋ฐ์ดํ„ฐ(ํ•ฉ์„ฑ ๋ฐ ์›์‹œ ์ฝ”๋“œ ํ˜ผํ•ฉ)

2. ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์‹คํ—˜

ํ‘œ4 ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๋น„์œจ ์„ฑ๋Šฅ ๋น„๊ต
ํ‘œ4 ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๋น„์œจ ์„ฑ๋Šฅ ๋น„๊ต

  • Targeted Acquisitions์™€ Code Data ๋น„์œจ์€ ๊ณ ์ •

    • ์งง์€ ํ† ํฐ ํ•œ๊ณ„(1์กฐ ํ† ํฐ)๋ฅผ ๋‘๊ณ  ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด ํ‰๊ฐ€ ์ง„ํ–‰
  • ๊ฒฐ๊ณผ:

    • Uniform Allocation(๋™์ผ ๋น„์œจ): ์„ธ ๋ฐ์ดํ„ฐ(S, W, WR)๋ฅผ ๋™์ผํ•˜๊ฒŒ ํ•  ๊ฒฝ์šฐ, ์„ฑ๋Šฅ ์ตœ์ ์ด ์•„๋‹˜
    • S-heavy(ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋†’์€ ๋น„์œจ): ๋Œ€๋ถ€๋ถ„ ๋ฒค์น˜๋งˆํฌ์—์„œ**(ํ‰๊ท ์ ์œผ๋กœ) ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ„**
    • S + W: TQA ๋ฒค์น˜๋งˆํฌ์—์„œ๋งŒ ์ด์ ์„ ๋ณด์—ฌ์คŒ
  • ์ตœ์ข… ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ, ์›น ๋ฐ์ดํ„ฐ, ์›น ๋ฆฌ๋ผ์ดํŠธ ๊ฐ„ ๊ท ํ˜•์„ ๋งž์ถ”๋ฉฐ ๋ชจ๋“  ํƒœ์Šคํฌ๋ฅผ ๊ณ ๋ฅด๊ฒŒ ๊ฐœ์„ ํ•˜๋„๋ก ์„ค๊ณ„

3. ์ตœ์ข… ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๊ตฌ์„ฑ

ํ‘œ5 ์ตœ์ข… ๋ฐ์ดํ„ฐ ๋น„์œจ
ํ‘œ5 ์ตœ์ข… ๋ฐ์ดํ„ฐ ๋น„์œจ

  • Web & Web Rewrites (30%):
    • ์ „์ฒด์˜ 30%(๊ฐ๊ฐ 15%์”ฉ) ํ• ๋‹น๋จ.
  • Synthetic Data (40%):
    • ์ „์ฒด์˜ 40% ํ• ๋‹นํ•˜๋ฉฐ ์ฃผ์š” ๋ฐ์ดํ„ฐ ์†Œ์Šค๋กœ ํ™œ์šฉ.
  • Code Data (20%):
    • ํ•ฉ์„ฑ ๋ฐ ์›์‹œ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ์‚ฌ์šฉ.
  • Targeted Acquisitions (10%):
    • ํ•™์ˆ  ์ž๋ฃŒ, ๋„์„œ ๋“ฑ ์œ ๊ธฐ์  ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จ.

โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”


๐Ÿช„Midtraining

  • ๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ ๊ธฐ์กด 4K์—์„œ 16K๋กœ ํ™•์žฅ.
  • ๊ธด ๋ฌธ๋งฅ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ์ƒ์„ฑ ๋ฐ ํ™œ์šฉ.

ํ‘œ 2: Phi-4(16K ์ปจํ…์ŠคํŠธ)์™€ Phi-3 ๋น„๊ต
ํ‘œ 2: Phi-4(16K ์ปจํ…์ŠคํŠธ)์™€ Phi-3 ๋น„๊ต


ํ‘œ 4: ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์˜ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ
ํ‘œ 4: ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์˜ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ

  • Synthetic(S), Web(W), Web Rewrite(WR) ๋ฐ์ดํ„ฐ์˜ ๋น„์ค‘.
  • Synthetic ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ• ์ˆ˜๋ก MMLU, MATH ๋“ฑ ์ถ”๋ก  ์ค‘์‹ฌ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์ด ๋” ์ข‹์Œ.
  • Web ๋ฐ์ดํ„ฐ๋Š” TQA์™€ ๊ฐ™์€ ์ง€์‹ ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ ํšจ๊ณผ์ .

ํ‘œ 5: ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๋น„์œจ
ํ‘œ 5: ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๋น„์œจ

  • ๊ตฌ์„ฑ ๋น„์œจ:
    • Synthetic: 40% (290B ํ† ํฐ, 13.8 epoch)
    • Web + Web Rewrite: 30%
    • Code Data: 20%
    • Acquired Sources: 10% (Academic, Books ๋“ฑ)

ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ

  • 30%: ์ƒˆ๋กœ ํ๋ ˆ์ด์…˜ํ•œ ๊ธด ๋ฌธ๋งฅ ๋ฐ์ดํ„ฐ
    • ํ•™์ˆ  ์ž๋ฃŒ, ์ฑ…, ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ 16K ์ด์ƒ์˜ ์ƒ˜ํ”Œ์„ ์„ ๋ณ„
  • 70%: ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ๋œ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ํ† ํฐ

์ค‘๊ฐ„ ํ•™์Šต ํ‰๊ฐ€

  • HELMET ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ ํ‰๊ฐ€
  • ๊ฒฐ๊ณผ:
    • ICL(68โ†’77), Re-rank(65.3โ†’75.4), QA(26.7โ†’36) ํ•ญ๋ชฉ์—์„œ ๋ˆˆ์— ๋„๊ฒŒ ๊ฐœ์„ ๋จ
    • ๋ฌธ๋งฅ ๊ธธ์ด ํ™•์žฅ์ด ์„ฑ๋Šฅ ๊ฐœ์„ ์— ๊ธฐ์—ฌํ–ˆ์Œ์„ ๋ณด์—ฌ์คŒ

[์ฐธ๊ณ ] 6๊ฐ€์ง€ ํ‰๊ฐ€ ํ•ญ๋ชฉ

์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ฐ˜์˜ํ•œ HELMET ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•ด ๊ธด ๋ฌธ๋งฅ์—์„œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€.
ํ‰๊ฐ€๋Š” ๊ฐ ํƒœ์Šคํฌ์—์„œ 5๋ฒˆ ๋ฐ˜๋ณต ์‹คํ–‰ํ•œ ํ‰๊ท ๊ฐ’์œผ๋กœ ๋ณด๊ณ .

  1. Recall (SubEM)
    • ํƒœ์Šคํฌ: ๊ธด JSON ํŒŒ์ผ์—์„œ ํŠน์ • ํ‚ค์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’์„ ๊ฒ€์ƒ‰.
    • ๋ฐ์ดํ„ฐ์…‹: ๋žœ๋ค ์ƒ์„ฑ JSON ํŒŒ์ผ.
  2. RAG (SubEM)
    • ํƒœ์Šคํฌ: ๋งŽ์€ ์œ„ํ‚ค๋ฐฑ๊ณผ ๋ฌธ์„œ๋ฅผ ๊ฒ€์ƒ‰ ๋ฐ ์…”ํ”Œํ•œ ํ›„ ์งˆ๋ฌธ์— ๋‹ต๋ณ€.
    • ๋ฐ์ดํ„ฐ์…‹: NaturalQuestions, HotpotQA, PopQA.
    • ๊ฒฐ๊ณผ: ๋ฐ์ดํ„ฐ์…‹ ํ‰๊ท .
  3. Re-rank (nDCG@10)
    • ํƒœ์Šคํฌ: ์ฟผ๋ฆฌ์™€ ๋งŽ์€ ๊ฒ€์ƒ‰ ๋ฌธ์„œ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ƒ์œ„ 10๊ฐœ ๋ฌธ์„œ๋ฅผ ์žฌ์ •๋ ฌ.
    • ๋ฐ์ดํ„ฐ์…‹: MSMARCO.
  4. ICL (F1)
    • ํƒœ์Šคํฌ: ์—ฌ๋Ÿฌ ์ƒท์˜ In-Context Learning.
    • ๋ฐ์ดํ„ฐ์…‹: TREC coarse, TREC fine, Banking77, NLU, CLINC150.
    • ๊ฒฐ๊ณผ: ๋ฐ์ดํ„ฐ์…‹ ํ‰๊ท .
  5. QA (GPT-4o scoring)
    • ํƒœ์Šคํฌ: ๊ธด ๋ฌธ์„œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์งˆ๋ฌธ์— ๋‹ต๋ณ€.
    • ๋ฐ์ดํ„ฐ์…‹: NarrativeQAv2.
  6. Summ (GPT-4o scoring)
    • ํƒœ์Šคํฌ: ๊ธด ๋ฒ•๋ฅ  ๋ฌธ์„œ๋ฅผ ์š”์•ฝ.
    • ๋ฐ์ดํ„ฐ์…‹: MultiLexSum.

ํ‘œ6 HELMET ๋ฒค์น˜๋งˆํฌ์—์„œ long-context ํ‰๊ฐ€ ๊ฒฐ๊ณผ
ํ‘œ6 HELMET ๋ฒค์น˜๋งˆํฌ์—์„œ long-context ํ‰๊ฐ€ ๊ฒฐ๊ณผ

  • ํ‰๊ฐ€ ํ•ญ๋ชฉ: Recall, RAG, QA, Summarization ๋“ฑ.
  • ๊ฒฐ๊ณผ: Phi-4๋Š” ๊ธด ๋ฌธ๋งฅ(16K ์ปจํ…์ŠคํŠธ)์—์„œ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์— ๋น„๊ฒฌ๋˜๋Š” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜.

๐Ÿช„post training

ํ‘œ 7 & 8: DPO ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ
ํ‘œ 7 & 8: DPO ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ

  • ํ‘œ 7: ์ฒซ ๋ฒˆ์งธ DPO ๋‹จ๊ณ„(Pivotal Token DPO) ๋ฐ์ดํ„ฐ.
    • ์ฃผ์š” ํ•ญ๋ชฉ: ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ(76,552), Python ์ฝ”๋“œ(16,080).
  • ํ‘œ 8: ๋‘ ๋ฒˆ์งธ DPO ๋‹จ๊ณ„(Judge-Guided DPO) ๋ฐ์ดํ„ฐ.
    • ๋ฐ์ดํ„ฐ ์ดํ•ฉ: ์•ฝ 850,000 ์ƒ˜ํ”Œ.
    • ์•ˆ์ „์„ฑ ๋ฐ ์ •ํ™•์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•ด GPT-4o ๊ธฐ๋ฐ˜ ํŒ๋‹จ ์ถ”๊ฐ€.

โœ…DPO ๊ณผ์ •

DPO[1]๋Š” ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ, ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ฐ์ดํ„ฐ ์Œ(pairs of desired and undesired outputs)์„ ํ™œ์šฉ

(1) ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„: Pivotal Token Search (PTS) ๊ธฐ๋ฐ˜ DPO

  • ๊ธฐ๋ฒ•:
    • Pivotal Token Search (PTS)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘์š” ํ† ํฐ(pivotal tokens)์„ ์‹๋ณ„
    • PTS๋ฅผ ํ†ตํ•ด ๊ธ์ •์ ์ธ ์‘๋‹ต๊ณผ ๋ถ€์ •์ ์ธ ์‘๋‹ต์˜ ๋ฐ์ดํ„ฐ ์Œ์„ ์ƒ์„ฑํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉ
  • ํšจ๊ณผ:
    • ์ˆ˜ํ•™, ์ฝ”๋”ฉ, ๊ทธ๋ฆฌ๊ณ  ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ ์‹œํ‚ด

(2) ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„: Judge-Guided DPO

  • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ:
    • ์•ฝ 85๋งŒ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์Œ(850k pairs)์„ ์ƒ์„ฑ
    • ํ”„๋กฌํ”„ํŠธ๋Š” ๊ณต๊ฐœ๋œ instruction tuning datasets ๋ฐ ์•ˆ์ „์„ฑ(Responsible AI, RAI) ๊ด€๋ จ ํ”„๋กฌํ”„ํŠธ์—์„œ ์ˆ˜์ง‘
  • ์‘๋‹ต ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€:
    • ๊ฐ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด GPT-4o, GPT-4t, Phi-4 ๋ชจ๋ธ์—์„œ ์ƒ์„ฑ๋œ ์‘๋‹ต์„ ์ˆ˜์ง‘

    • ์ƒ์„ฑ๋œ ์‘๋‹ต ์Œ์—์„œ GPT-4o๋ฅผ ์‹ฌํŒ(judge)์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ ๊ธฐ์ค€์œผ๋กœ ๊ธ์ •์ /๋ถ€์ •์  ์‘๋‹ต์„ ๋ถ„๋ฅ˜:

      1. ์ •ํ™•์„ฑ(Accuracy).
      2. ์Šคํƒ€์ผ(Style).
      3. ์„ธ๋ถ€์„ฑ(Detail).
    • ํ‰๊ท  ์ ์ˆ˜ ๋˜๋Š” ์ •ํ™•์„ฑ ๊ธฐ์ค€์œผ๋กœ ๊ธ์ • ์‘๋‹ต์„ ์„ ํƒ

Pivotal Token์˜ ๊ฐœ๋…

  • ์ผ๋ถ€ ํ† ํฐ์€ ์„ฑ๊ณต ํ™•๋ฅ ์˜ ๊ธ‰๊ฒฉํ•œ ๋ณ€ํ™”๋ฅผ ์œ ๋ฐœํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ํ† ํฐ์„ Pivotal Token์ด๋ผ๊ณ  ํ•จ.

  • ๋ชจ๋ธ์ด ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ์‘๋‹ต์„ ์ƒ์„ฑํ•  ๋•Œ, ๊ฐ ํ† ํฐ์€

    $$
    p(successโˆฃt1,...,ti)
    $$

    ์œ„ ์กฐ๊ฑด๋ถ€ ์„ฑ๊ณต ํ™•๋ฅ  ์— ๊ธฐ์—ฌ ํ•จ

  • ์˜ˆ๋ฅผ ๋“ค์–ด, ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ๋‹จ์–ด(์˜ˆ: "๊ณฑ์…ˆ" ๋˜๋Š” "๋ถ€ํ˜ธ")๊ฐ€ ๊ฒฐ๊ณผ์˜ ์„ฑ๊ณต๊ณผ ์‹คํŒจ๋ฅผ ๊ฒฐ์ •์ง“๋Š” ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Œ.

2c001edc-9b0d-4222-9c04-26385d3898aa.png
ํ‘œ9: ์‚ฌํ›„ํ•™์Šต(Post-training) ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜

  • ํŠน์ • ํ† ํฐ(์˜ˆ: "negative")์ด ๊ฒฐ๊ณผ์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นจ.
  • ์ถ”๋ก  ์„ฑ๊ณต ํ™•๋ฅ ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•˜๋Š” ํ† ํฐ์„ ํ•™์Šต ๋Œ€์ƒ์œผ๋กœ ์„ค์ •.

์ฃผ์–ด์ง„ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ํ† ํฐ๋ณ„ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์„ ๊ณ ๋ คํ•จ. ๋ชจ๋ธ ์‘๋‹ต์— ํ•ด๋‹นํ•˜๋Š” ์ƒ์„ฑ๋œ ๊ฐ ํ† ํฐ์— ๋Œ€ํ•ด ํ•ด๋‹น ํ† ํฐ์„ ๊ธฐ์ค€์œผ๋กœ ๋ชจ๋ธ์˜ ๋‹ต๋ณ€์ด ์˜ณ์„ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๊ณผ ํ•ด๋‹น ํ† ํฐ์— ๋Œ€ํ•œ ์ด ํ™•๋ฅ ์˜ ์ฆ๊ฐ€๋ถ„(์ฆ‰, ํ•ด๋‹น ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „๊ณผ ํ›„์— ์˜ณ์„ ํ™•๋ฅ ์˜ ์ฐจ์ด)์„ ๊ณ ๋ ค

๊ทธ๋ฆผ 4: ํ”ผ๋ณดํƒˆ ํ† ํฐ(Pivotal Token) ํƒ์ง€ ์˜ˆ์‹œ
๊ทธ๋ฆผ 4: ํ”ผ๋ณดํƒˆ ํ† ํฐ(Pivotal Token) ํƒ์ง€ ์˜ˆ์‹œ

ํ”ผ๋ด‡ํƒˆ ํ† ํฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

(1) Subdivide ํ•จ์ˆ˜ -> ์žฌ๊ท€ ํƒ์ƒ‰ ์‹œ์ž‘
(2) Pivotal Token ํƒ์ง€ -> ๋ณ€ํ™”๋Ÿ‰์ด ๐‘gap์ด์ƒ์ด๋ฉด ํ”ผ๋ด‡ํƒˆ ํ† ํฐ ์‹๋ณ„
(3) ๋ฐ˜๋ณต ๋ฐ ์ถœ๋ ฅ
(4) t-acc, t-rej ์„ ๋ณ„

ํ”ผ๋ด‡ํƒˆ ๋ฐ์ดํ„ฐ
๊ทธ๋ฆผ 5: ํ”ผ๋ด‡ํƒˆ ๋ฐ์ดํ„ฐ

PTS ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ๋ฆ„

  1. ์„ฑ๊ณต ํ™•๋ฅ  ๋ถ„์„:
    • ๊ฐ ํ† ํฐ์ด ์‘๋‹ต์˜ ์„ฑ๊ณต ํ™•๋ฅ ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ณ„์‚ฐ.
    • ์„ฑ๊ณต ํ™•๋ฅ ์ด pgap(์ž„๊ณ„๊ฐ’) ์ด์ƒ ๋ณ€ํ™”ํ•˜๋Š” ํ† ํฐ์„ ํƒ์ง€.
  2. Good/Bad ์‘๋‹ต ๋ถ„๋ฅ˜:
    • Good ์‘๋‹ต: ์„ฑ๊ณต ํ™•๋ฅ ์„ ๋†’์ด๋Š” ํ”ผ๋ณดํƒˆ ํ† ํฐ ํฌํ•จ.
    • Bad ์‘๋‹ต: ์„ฑ๊ณต ํ™•๋ฅ ์„ ๋‚ฎ์ถ”๊ฑฐ๋‚˜ ๋ฌด๊ด€ํ•œ ํ† ํฐ ํฌํ•จ.
  3. ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ:
    • ํƒ์ง€๋œ ํ”ผ๋ณดํƒˆ ํ† ํฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธ์ •/๋ถ€์ • ํ•™์Šต ๋ฐ์ดํ„ฐ ์Œ์„ ์ƒ์„ฑ.

๊ทธ๋ฆผ 6: SimpleQA ์„ฑ๋Šฅ ๋ณ€ํ™”
๊ทธ๋ฆผ 6: SimpleQA ์„ฑ๋Šฅ ๋ณ€ํ™”

  • ์ •๋‹ต๋ฅ (Correct): ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ •ํ™•ํžˆ ๋‹ต๋ณ€ํ•œ ๋น„์œจ.
  • ๋น„์‘๋‹ต๋ฅ (Not attempted): ๋ชจ๋ธ์ด ๋‹ต๋ณ€์„ ์‹œ๋„ํ•˜์ง€ ์•Š์€ ๋น„์œจ.
  • ์˜ค๋‹ต๋ฅ (Incorrect): ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ž˜๋ชป๋œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•œ ๋น„์œจ.

์‚ฌํ›„ ํ•™์Šต ๊ณผ์ •์—์„œ ์ž˜๋ชป๋œ ์ถ”๋ก ์ด ๊ฐ์†Œํ•˜๊ณ , ๋ชจ๋ธ์ด ๋‹ต๋ณ€์„ ํฌ๊ธฐ(not attempted)ํ•˜๋Š” ๋น„์œจ์ด ์ฆ๊ฐ€.

๋” ๋‚˜์€ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ์œ„ํ•ด ๊ณ ๋„ํ™”๋œ ํ•™์Šต ์ „๋žต์ด ๋ฐ˜์˜๋จ.

  • Base SFT:
    • ์ •๋‹ต ๋น„์œจ: ์•ฝ 6.8%.
      • ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ ์งˆ๋ฌธ์—๋„ ์ž˜๋ชป๋œ ์‘๋‹ต(ํ™˜๊ฐ)์„ ์ž์ฃผ ์ƒ์„ฑ.
    • ์˜ค๋‹ต ๋น„์œจ: ๋Œ€๋ถ€๋ถ„์˜ ์‘๋‹ต์ด ์ž˜๋ชป๋œ ๋‹ต๋ณ€์œผ๋กœ ๊ตฌ์„ฑ.
  • DPO 1๋‹จ๊ณ„:
    • ์ •๋‹ต ๋น„์œจ ์ฆ๊ฐ€: ์•ฝ 57.5%.
      • PTS๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๋ฉด์„œ ๋ชจ๋ธ์ด ๋” ๋งŽ์€ ์งˆ๋ฌธ์— ์ •ํ™•ํ•˜๊ฒŒ ๋‹ต๋ณ€.
    • ๋น„์‘๋‹ต ๋น„์œจ ์ฆ๊ฐ€: ํ™˜๊ฐ ๋Œ€์‹  ์งˆ๋ฌธ์„ ์‹œ๋„ํ•˜์ง€ ์•Š๋Š” ์‘๋‹ต์ด ์ฆ๊ฐ€.
      • ๋ชจ๋ธ์ด ํ™•์‹คํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ์˜ค๋‹ต์„ ์ƒ์„ฑํ•˜์ง€ ์•Š๊ณ  ์‘๋‹ต์„ ํšŒํ”ผํ•˜๋„๋ก ํ•™์Šต๋จ.
    • ์˜ค๋‹ต ๋น„์œจ ๊ฐ์†Œ: ์•ฝ 10% ๋ฏธ๋งŒ.
  • DPO 2๋‹จ๊ณ„:
    • ์ •๋‹ต ๋น„์œจ ์ตœ์ข… ์ฆ๊ฐ€: ์•ฝ 81.1%.
      • Judge-Guided ํ‰๊ฐ€๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•˜๋ฉด์„œ ์ •๋‹ต๋ฅ ์ด ๋Œ€ํญ ์ƒ์Šน.
    • ๋น„์‘๋‹ต ๋น„์œจ ์•ฝ๊ฐ„ ๊ฐ์†Œ: ๋น„์‘๋‹ต ๋น„์œจ์ด ๊ฐ์†Œํ•˜๋ฉด์„œ ๋ชจ๋ธ์˜ ์ž์‹ ๊ฐ์ด ๋†’์•„์ง.
    • ์˜ค๋‹ต ๋น„์œจ ์ตœ์†Œํ™”: ์•ฝ 3.0%๋กœ ๋‚ฎ์•„์ง.

ํ‘œ 9: ์‚ฌํ›„ ํ•™์Šต ๊ณผ์ • ์ค‘ ๋ฒค์น˜๋งˆํฌ ๋ณ€ํ™”
ํ‘œ 9: ์‚ฌํ›„ ํ•™์Šต ๊ณผ์ • ์ค‘ ๋ฒค์น˜๋งˆํฌ ๋ณ€ํ™”

  • DPO(์„ ํ˜ธ ์ตœ์ ํ™”) ๋‹จ๊ณ„๋ณ„ ์„ฑ๋Šฅ:
    • GPQA(47.3 โ†’ 56.1), MATH(77.1 โ†’ 80.4) ๋“ฑ์—์„œ ์ง€์†์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ.
    • ํŠน์ง•: ์ฒซ ๋ฒˆ์งธ DPO(ํ”ผ๋ณดํƒˆ ํ† ํฐ ๊ธฐ๋ฐ˜)๋Š” ์ถ”๋ก  ๊ฐ•ํ™”์— ํšจ๊ณผ์ ์ด๊ณ , ๋‘ ๋ฒˆ์งธ DPO(ํŒ๋‹จ ๊ธฐ๋ฐ˜)๋Š” ์Šคํƒ€์ผ ๋ฐ ํ‘œํ˜„์— ๊ฐ•์ .

ํ‘œ 10: RAI(์ฑ…์ž„ ์žˆ๋Š” AI) ๋ฒค์น˜๋งˆํฌ
ํ‘œ 10: RAI(์ฑ…์ž„ ์žˆ๋Š” AI) ๋ฒค์น˜๋งˆํฌ

Phi-4๋Š” ์œ ํ•ด ์ฝ˜ํ…์ธ  ์ƒ์„ฑ ๊ฐ€๋Šฅ์„ฑ(0.036) ๋ฐ ํƒˆ์ถœ(jailbreak) ์‹œ๋„(0.073)์—์„œ ๋‚ฎ์€ ๊ฒฐํ•จ๋ฅ ์„ ๋ณด์ž„.

RAI ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜๋ฉฐ, ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ ๋†’์€ ์•ˆ์ •์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋ณด์—ฌ์คŒ.


QA

backbone model์€?

Phi-4๋Š” Phi-3-medium์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ
Phi-3์˜ ์•„ํ‚คํ…์ฒ˜๋Š” llama 2์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋”ฐ๋ฆ„

4k โ†’ 16k ๋ณ€๊ฒฝ ์ด์œ 

๊ธด ๋ฌธ๋งฅ์ด ํ•„์š”ํ•œ ์ž‘์—…(์˜ˆ: ๊ธด ๋ฌธ์„œ ์š”์•ฝ, ์ฝ”๋“œ ๋ถ„์„, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์งˆ์˜)์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ปจํ…์ŠคํŠธ ๊ธธ์ด์˜ ํ™•์žฅ์ด ํ•„์š”ํ–ˆ์Œ

๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ๋ฐ์ดํ„ฐ๋Š” ์ดˆ๊ธฐ ํ•™์Šต์—์„œ ๋งค์šฐ ๋ถˆ์•ˆ์ •ํ•˜๊ฒŒ ์ž‘๋™ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ

๋”ฐ๋ผ์„œ 4K ํ•™์Šต์—์„œ ์ถ•์ ๋œ ์ง€์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ 16K ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋ฉด, ๊ธด ๋ฌธ๋งฅ์—์„œ๋„ ๋” ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅ

์ค‘๊ฐ„ํ•™์Šต 70%์— ์žฌ์‚ฌ์šฉ๋œ ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋Š” ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‚˜?

๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋Š” ์˜คํ”ˆ๋˜์–ด ์žˆ์ง€ ์•Š์ง€๋งŒ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ์žฌ์‚ฌ์šฉ ํ•œ ๊ฒƒ์€ ์•„๋‹ˆ๊ณ  ์ƒ˜ํ”Œ๋ง์„ ํ•ด์„œ ๋น„์œจ์„ ๋งž์ถ”์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

Trivia

DPO 1, 2์˜ ์ˆœ์„œ๊ฐ€ ๋ฐ”๋€Œ๋ฉด ์„ฑ๋Šฅ์— ์˜ํ–ฅ์ด ์žˆ์„๊นŒ?

์•„๋งˆ ๊ทธ๋Ÿฌํ•  ๊ฒƒ์ด๋‹ค. Judge์˜ ๊ฒฝ์šฐ ์ •๋ณด๋Ÿ‰์„ ์ค„์ด๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์–ด ๊ฐ€์žฅ ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์— ๋„ฃ๋Š” ๊ฒƒ์ด ํšจ๊ณผ์ ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ์กฐ๊ธˆ ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง€๋Š” ์ •๋ณด์—ฌ๋„ ์ตœ๋Œ€ํ•œ ํ•™์Šต์‹œํ‚ค๊ณ  ๋‚˜์ค‘์— ์ž˜๋ชป ๋˜์—ˆ๋‹ค๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ๋ฐ›์•„ ์ถœ๋ ฅ์œผ๋กœ ๊ฐ€์ง€ ๋ชปํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด (์‚ญ์ œ๋‚˜ ํƒˆํ•™์Šต-unlearing์ด ์•„๋‹˜) ์„ฑ๋Šฅ ์ธก๋ฉด์—์„œ๋Š” ์œ ๋ฆฌํ•œ ๋ฉด์ด ์žˆ๋‹ค.


  1. Direct Preference Optimization โ†ฉ๏ธŽ