Basic
๐Ÿฅ•

Basic

1. Machine Learning

๊ทœ์น™์„ ์ง์ ‘ ์“ฐ์ง€ ์•Š๊ณ , ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ทœ์น™์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ์ž…๋ ฅ โ†’ ์ถœ๋ ฅ ๊ด€๊ณ„๋ฅผ ํ•จ์ˆ˜๋กœ ํ•™์Šต
  • ์„ฑ๋Šฅ์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์œผ๋กœ ํŒ๋‹จ

1.1 Model

๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ธ์ด๋ž€ ์ž…๋ ฅ์„ ์ถœ๋ ฅ์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜์ด๋‹ค.
  • ์ž…๋ ฅ
  • ์˜ˆ์ธก ๊ฐ’ ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ํ•จ์ˆ˜
  • ๋Š” ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ
์ฆ‰, ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ํ‘œํ˜„ํ•˜๋Š” ์ˆ˜ํ•™์  ํ•จ์ˆ˜์ด๋‹ค.

1.2 Learning

ํ•™์Šต์ด๋ž€, ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋” ๋‚˜์€ ์˜ˆ์ธก์„ ํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋‹ค.
  • ์ดˆ๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ ์‹œ์ž‘ํ•ด
  • ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๊ณ 
  • ์˜ˆ์ธก์ด ์–ผ๋งˆ๋‚˜ ํ‹€๋ ธ๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•œ ๋’ค
  • ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ ํ•œ๋‹ค.
์ฆ‰, ํ•™์Šต์€ ์ข‹์€ ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค.

1.3 Loss function

๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์ •๋‹ต๊ณผ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•œ ํ•จ์ˆ˜์ด๋‹ค.
  • ์˜ˆ์ธก์ด ํ‹€๋ฆด์ˆ˜๋ก Loss๋Š” ์ปค์ง€๊ณ 
  • ์˜ˆ์ธก์ด ๋งž์„์ˆ˜๋ก Loss๋Š” ์ž‘์•„์ง„๋‹ค.
์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” Loss ์˜ˆ์‹œ
  • ํšŒ๊ท€ ๋ฌธ์ œ โ†’ MSE, MAE
  • ๋ถ„๋ฅ˜ ๋ฌธ์ œ โ†’ Cross-Entropy
  • ์ถ”์ฒœ ๋ฌธ์ œ โ†’ Binary Cross-Entorpy, Pairwise, Listwise Loss, Contrastive
์ฆ‰, Loss Function์€ ๋ฌธ์ œ ์œ ํ˜•์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฉฐ, ์ถ”์ฒœ ๋ฌธ์ œ์—์„œ๋Š” ์ ˆ๋Œ€์ ์ธ ์˜ˆ์ธก๊ฐ’๋ณด๋‹ค ์ƒ๋Œ€์ ์ธ ์„ ํ˜ธ๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” Loss๊ฐ€ ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค

1.4 Gradient Descent

Loss Function์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
  • Loss Function์ด ์ •์˜๋˜๋ฉด, ๋ชจ๋ธ์€ ์ด Loss๋ฅผ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰ํ•œ๋‹ค.
  • ํ˜„์žฌ ํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ Loss์˜ Gradient ๊ณ„์‚ฐ ํ›„ Learning Rate๋งŒํผ ์ด๋™
์ข…๋ฅ˜
์ข…๋ฅ˜
ํŠน์ง•
์‚ฌ์šฉ
Batch Gradient Descent
์•ˆ์ •์ ์ด์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ์ด ํผ
์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ
Stochastic Gradient Descent (SGD)
๋น ๋ฅด์ง€๋งŒ ๋…ธ์ด์ฆˆ๊ฐ€ ํผ
์ด๋ก ์  ๋ถ„์„, ๊ธฐ๋ณธ ๊ฐœ๋…
Mini-batch Gradient Descent
์†๋„์™€ ์•ˆ์ •์„ฑ์˜ ๊ท ํ˜•
์‹ค๋ฌด ํ‘œ์ค€
Adam
learning rate ์ž๋™ ์กฐ์ ˆ, ์ˆ˜๋ ด ๋น ๋ฆ„
๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ณธ optimizer
  • Batch โ†’ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ์ •ํ™•ํ•œ gradient๋ฅผ ๊ณ„์‚ฐํ•˜์ง€๋งŒ ๋А๋ฆฌ๋‹ค.
  • SGD โ†’ ์ƒ˜ํ”Œ ํ•˜๋‚˜๋กœ ๊ทผ์‚ฌํ•ด ๋น ๋ฅด์ง€๋งŒ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋ถˆ์•ˆ์ •ํ•˜๋‹ค.
  • Mini-batch โ†’ ์ž‘์€ ๋ฌถ์Œ ๋‹จ์œ„๋กœ ๊ณ„์‚ฐํ•ด ๊ฐ€์žฅ ์‹ค๋ฌด์ ์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.
  • Adam โ†’ Momentum๊ณผ adaptive learning rate๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, ๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ธฐ๋ณธ๊ฐ’์ฒ˜๋Ÿผ ์“ฐ์ธ๋‹ค.

1.5 Generalization & Overfitting

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ถ๊ทน์ ์ธ ๋ชฉํ‘œ๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹ˆ๋ผ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—๋„ ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. โ†’ ์ผ๋ฐ˜ํ™”
  • Overfitting โ†’ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—๋Š” ์ž˜ ๋งž์ง€๋งŒ, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ์ƒํƒœ (๋…ธ์ด์ฆˆ๋„ ํ•™์Šต)
  • Underfitting โ†’ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์กฐ์ฐจ ์ œ๋Œ€๋กœ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•˜๋Š” ์ƒํƒœ
  • Bias โ†’ ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด์„œ ์ƒ๊ธฐ๋Š” ์ƒํƒœ
  • Variance โ†’ ๋ฐ์ดํ„ฐ์— ๊ณผ๋„ํ•˜๊ฒŒ ๋ฏผ๊ฐํ•ด์„œ ์ƒ๊ธฐ๋Š” ์ƒํƒœ
์ฆ‰, ์ผ๋ฐ˜ํ™”๋ž€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๋Šฅ๋ ฅ, overfitting์€ ์ด๋ฅผ ๋ฐฉํ•ดํ•œ๋‹ค.

1.6 Metric

๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์‚ฌ๋žŒ์ด ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ์ด๋‹ค.
  • ํ•™์Šต ํ›„์— ํ‰๊ฐ€์— ์‚ฌ์šฉ
  • ๋ฌธ์ œ ๋ชฉ์ ์— ๋งž๊ฒŒ ๋ฐฉ๋ฒ• ์„ ํƒ
Metric
์˜๋ฏธ
์–ธ์ œ ์ค‘์š”ํ•œ๊ฐ€
์ฃผ์˜ํ•  ์ 
Accuracy
์ „์ฒด ์˜ˆ์ธก ์ค‘ ๋งž์ถ˜ ๋น„์œจ
ํด๋ž˜์Šค๊ฐ€ ๊ท ํ˜•์ ์ผ ๋•Œ
๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์— ๋งค์šฐ ์ทจ์•ฝ
Precision
์–‘์„ฑ์ด๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ ์ค‘ ์‹ค์ œ ์–‘์„ฑ ๋น„์œจ
์˜คํƒ(False Positive) ์ด ์น˜๋ช…์ ์ผ ๋•Œ
์žฌํ˜„์œจ์„ ํฌ์ƒํ•  ์ˆ˜ ์žˆ์Œ
Recall
์‹ค์ œ ์–‘์„ฑ ์ค‘ ๋งž์ถ˜ ๋น„์œจ
๋ฏธํƒ(False Negative) ์ด ์น˜๋ช…์ ์ผ ๋•Œ
์ •๋ฐ€๋„๊ฐ€ ๋‚ฎ์•„์งˆ ์ˆ˜ ์žˆ์Œ
F1-score
Precision๊ณผ Recall์˜ ์กฐํ™” ํ‰๊ท 
๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ, ๋‘ ์ง€ํ‘œ๋ฅผ ๋™์‹œ์— ๊ณ ๋ คํ•  ๋•Œ
ํ•ด์„์ด ์ง๊ด€์ ์ด์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ
ROC-AUC
๋ถ„๋ฅ˜ ์ž„๊ณ„๊ฐ’ ์ „๋ฐ˜์—์„œ์˜ ์„ฑ๋Šฅ
์ž„๊ณ„๊ฐ’์— ๋…๋ฆฝ์  ๋น„๊ต๊ฐ€ ํ•„์š”ํ•  ๋•Œ
์‹ค์ œ ์šด์˜ ์ž„๊ณ„๊ฐ’๊ณผ ๊ดด๋ฆฌ ๊ฐ€๋Šฅ
  • Accuracy โ†’ โ€œ์ „์ฒด์ ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๋งž์ท„๋‚˜?โ€
  • Precision โ†’ โ€œ๋งž๋‹ค๊ณ  ํ•œ ๊ฒƒ ์ค‘์— ์ง„์งœ๋Š” ์–ผ๋งˆ๋‚˜ ๋˜๋‚˜?โ€ (์ŠคํŒธ์œผ๋กœ ์ž˜๋ชป ๊ฑธ๋ฉด ์•ˆ ๋  ๋•Œ)
  • Recall โ†’ โ€œ์ง„์งœ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋†“์น˜์ง€ ์•Š์•˜๋‚˜?โ€ (์งˆ๋ณ‘/์‚ฌ๊ธฐ ํƒ์ง€์ฒ˜๋Ÿผ ๋†“์น˜๋ฉด ํฐ ๋ฌธ์ œ)
  • F1-score โ†’ โ€œPrecision๊ณผ Recall์„ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ณด๊ณ  ์‹ถ์„ ๋•Œโ€
  • ROC-AUC โ†’ โ€œ์ž„๊ณ„๊ฐ’ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ๋ชจ๋ธ ์ž์ฒด์˜ ๋ถ„๋ฆฌ ๋Šฅ๋ ฅ์„ ๋ณด๊ณ  ์‹ถ์„ ๋•Œโ€
ย 
์ถ”์ฒœ/๋žญํ‚น์— ์ž์ฃผ ์“ฐ์ด๋Š” Metrix
Metric
์˜๋ฏธ
์–ธ์ œ ์“ฐ๋Š”๊ฐ€
ํ•ต์‹ฌ ํฌ์ธํŠธ
Precision@K
์ƒ์œ„ K๊ฐœ ์ค‘ ์‹ค์ œ๋กœ ๋งž์€ ๋น„์œจ
์ถ”์ฒœ ์ •ํ™•๋„๊ฐ€ ์ค‘์š”ํ•  ๋•Œ
์ˆœ์„œ๋Š” ๊ณ ๋ ค โŒ
Recall@K
์‹ค์ œ ์ •๋‹ต ์ค‘ ์ƒ์œ„ K์— ํฌํ•จ๋œ ๋น„์œจ
๋†“์น˜๋ฉด ์•ˆ ๋˜๋Š” ์•„์ดํ…œ์ด ์žˆ์„ ๋•Œ
K์— ๋ฏผ๊ฐ
Hit Rate@K
์ •๋‹ต์ด Top-K์— ํ•˜๋‚˜๋ผ๋„ ์žˆ์œผ๋ฉด ์„ฑ๊ณต
๋‹จ์ˆœ ์ถ”์ฒœ ์„ฑ๊ณต ์—ฌ๋ถ€
๋งค์šฐ ๊ฑฐ์นœ ์ง€ํ‘œ
MRR
์ •๋‹ต์ด ์ฒ˜์Œ ๋“ฑ์žฅํ•œ ์ˆœ์œ„์˜ ์—ญ์ˆ˜
๊ฒ€์ƒ‰/QA/๋‹จ์ผ ์ •๋‹ต
์ฒซ ์œ„์น˜ ์ค‘์š”
MAP
Precision์˜ ํ‰๊ท 
์—ฌ๋Ÿฌ ์ •๋‹ต ์žˆ์„ ๋•Œ
์ˆœ์„œ ์ผ๋ถ€ ๋ฐ˜์˜
NDCG โญโญโญ
์ˆœ์œ„ + ์ค‘์š”๋„ ๋ชจ๋‘ ๋ฐ˜์˜
์‹ค๋ฌด ์ตœ๋‹ค ์‚ฌ์šฉ
์œ„์— ์žˆ์„์ˆ˜๋ก ๊ฐ€์ค‘์น˜ ํผ
ย 
ย