πŸ“•
PRML
  • PRML study
  • Chapter-1 Introduction
    • 1.1 Example: Polynomial Curve Fitting
    • 1.2 Probability Theory
    • 1.3 Model Selection
    • 1.4 The Curse of dimensionality
    • 1.5 Decision Theory
    • 1.6 Information Theory
    • a.1 From Set Theory to Probability Theory
  • Chapter-2 Probability Distributions
    • 2.1 Binary Variables
    • 2.2 Multinomial Variables
    • 2.3 Gaussian Distribution
    • 2.4 The Exponential Family
    • 2.5 Nonparametric Methods
  • Chapter-3 Linear Models
    • 3.1 Linear Basis Function Models
    • 3.2 The Bias-Variance Decomposition
    • 3.3 Bayesian Linear Regression
    • 3.4 Bayesian Model comparison
    • 3.5 The Evidence Approximation
    • 3.6 Limitations of Fixed Basis Functions
  • Chapter-4 Linear Models for Classification
    • 4.1 Discriminant Functions
    • 4.2 Probabilistic Generative Models
    • 4.3 Probabilistic Discriminative Models
    • 4.4 The Laplace Approximation
    • 4.5 Bayesian Logistic Regression
  • Chapter-5 Neural Networks
    • 5.1 Feed-forward network Function
    • 5.2 Network Training
    • 5.3 Error Backpropagation
    • 5.4 The Hessian Matrix
    • 5.5 Regularization in Neural Networks
    • 5.6 Mixture Density Networks
    • 5.7 Bayesian Neural Networks
Powered by GitBook
On this page
  • 1.2.1 Probability densities(ν™•λ₯  밀도)
  • 1.2.2 Expectations and covariances
  • 1.2.3 Bayesian probabilities
  • 1.2.4 The Gaussian distribution

Was this helpful?

  1. Chapter-1 Introduction

1.2 Probability Theory

Previous1.1 Example: Polynomial Curve FittingNext1.3 Model Selection

Last updated 5 years ago

Was this helpful?

νŒ¨ν„΄μΈμ‹μ—μ„œ μ€‘μš”ν•œ κ°œλ… 쀑 ν•˜λ‚˜λŠ” λΆˆν™•μ‹€μ„±(uncertainty) 이닀. ν™•λ₯  이둠(Probability Theory) 은 λΆˆν™•μ‹€μ„±μ„ μ •ν™•ν•˜κ³  양적인 λ°©μ‹μœΌλ‘œ μΈ‘μ •ν•  수 μžˆλŠ” μΌκ΄€λœ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•΄μ€€λ‹€. λ˜ν•œ κ²°μ • 이둠(Decision Theory) 와 κ²°ν•©ν•˜λ©΄ ν˜„μž¬ κ°€μ§„ μ •λ³΄λ‚΄μ—μ„œ 졜적의 μ˜ˆμΈ‘μ„ λ‚΄λ¦΄μˆ˜ μžˆλ„λ‘ 도와쀀닀.

이 μ±…μ—μ„œλŠ” λ‹€μŒ 예제둜 ν™•λ₯ μ„ μ†Œκ°œν•˜λ €κ³  ν•œλ‹€. ν™•λ₯ λ³€μˆ˜(Random Variable) BBB둜 κ·Έλ¦Ό 1.2.1의 λ°•μŠ€λ₯Ό ν‘œν˜„ν•œλ‹€. 이 ν™•λ₯ λ³€μˆ˜ BBBλŠ” 빨간색(rrr)κ³Ό νŒŒλž‘μƒ‰(bbb) 두 κ°€μ§€ κ²½μš°κ°€ μžˆλ‹€. λ°•μŠ€ μ•ˆμ— μžˆλŠ” 과일의 μ’…λ₯˜ λ˜ν•œ ν™•λ₯ λ³€μˆ˜ FFF둜 ν‘œν˜„ν•˜λ©°, 사과(aaa)와 μ˜€λ Œμ§€(ooo) 두 κ°€μ§€ κ²½μš°κ°€ μžˆλ‹€.

1.2.1

μ‹œμž‘ν•˜κΈ° 전에 μ‚¬κ±΄μ˜ λ°œμƒ 횟수λ₯Ό 총 μ‹œν–‰νšŸμˆ˜λ‘œ λ‚˜λˆˆ 값을 μ–΄λ–€ 사건(event)의 ν™•λ₯ λ‘œ μ •μ˜ν•œλ‹€. λ”°λΌμ„œ λ‹€μŒ μ‚¬κ±΄λ“€μ˜ ν™•λ₯ μ„ μ •μ˜ ν•  수 μžˆλ‹€(빨강색 λ°•μŠ€λ₯Ό 선택할 ν™•λ₯ μ€ 40%, νŒŒλž‘μƒ‰μ€ 60%λ‹€).

p(B=b)=410p(B=r)=610\begin{aligned}p(B=b)&=\dfrac{4}{10} \\ p(B=r)&=\dfrac{6}{10}\end{aligned}p(B=b)p(B=r)​=104​=106​​

μœ„ μ •μ˜μ— λ”°λ₯΄λ©΄, ν™•λ₯ μ€ 항상 0κ³Ό 1μ‚¬μ΄μ˜ 값을 κ°€μ§„λ‹€. λ˜ν•œ, μƒν˜Έ 배타적(mutually exclusive)μ΄κ±°λ‚˜ λͺ¨λ“  κ²°κ³Ό(outcomes)λ₯Ό ν¬ν•¨ν•˜λŠ” 경우, λͺ¨λ“  ν™•λ₯ μ˜ 합은 1이 λ˜μ–΄μ•Ό ν•œλ‹€.

μ—¬κΈ°μ„œ 잠깐 ν™•λ₯ μ—μ„œ ν•©μ˜ 법칙(sum rule)κ³Ό 곱의 법칙(product rule) μ•Œμ•„λ³΄κ³  μ˜¨λ‹€.

κ·Έλ¦Ό 1.2.2μ—μ„œ XXX, YYY 두 개의 ν™•λ₯ λ³€μˆ˜κ°€ μžˆλ‹€. XXXλŠ” xix_ixi​값을 μ·¨ν•  수 있고(iiiλŠ” (1,⋯ ,M)(1, \cdots, M)(1,β‹―,M)κΉŒμ§€), YYYλŠ” yjy_jyj​값을 μ·¨ν•  수 μžˆλ‹€(jjjλŠ” (1,⋯ ,N)(1, \cdots, N)(1,β‹―,N)κΉŒμ§€). λ˜ν•œ, XXX와 YYYμ—μ„œ ν‘œλ³Έμ„ μΆ”μΆœν•˜λŠ”λ° 총 μ‹œλ„νšŸμˆ˜λ₯Ό NNN이라고 ν•œλ‹€. 그리고 XXXκ°€ xix_ixi​값을 μ·¨ν•˜κ³  YYYκ°€ yjy_jyj​값을 μ·¨ν–ˆμ„ λ•Œμ˜ μ‹œλ„ 갯수λ₯Ό nijn_{ij}nij​ 라고 ν•œλ‹€. μ΄λ•Œ ν™•λ₯ μ€ p(X=xi,Y=yj)p(X=x_i, Y=y_j)p(X=xi​,Y=yj​)라고 ν•˜λ©°, X=xi,Y=yjX=x_i, Y=y_jX=xi​,Y=yjβ€‹μ˜ κ²°ν•© ν™•λ₯ (joint probability) 이라고 ν•œλ‹€.

μ‹€μ œλ‘œ μž„μ˜λ‘œ 횟수λ₯Ό μ§€μ •ν•΄μ„œ 계산을 ν•΄λ³΄μž.

np.random.seed(777)
A = np.random.randint(1, 10, size=(3, 5))
fig, ax = plt.subplots(1, 1)
ax.matshow(table, cmap="coolwarm")

for (i, j), z in np.ndenumerate(A):
    ax.text(j, i, f"{z}", ha="center", va="center")
ax.set_xticklabels(np.arange(0, 6))
ax.set_yticklabels(np.arange(0, 4))
ax.set_xlabel("$X$", fontsize=20)
ax.set_ylabel("$Y$", fontsize=20).set_rotation(0)

plt.show()

def joint_probability(i, j, A):
    """
    i: index of x element 
    j: index of y element
    """
    return A[j, i] / A.sum()

# x_1, y_2 --> 5/83
p_x1y2 = joint_probability(0, 1, A)
print(round(p_x1y2, 4))
# 0.0602

ν™•λ₯ λ³€μˆ˜ YYY에 관계없이 X=xiX=x_iX=xiβ€‹μ˜ μ‹œλ„ 횟수λ₯Ό cic_ici​, XXX에 관계없이 Y=yjY=y_jY=yjβ€‹μ˜ μ‹œλ„ 횟수λ₯Ό rjr_jrj​라고 ν•˜λ©΄, λ‹€μŒκ³Ό 같이 ν‘œν˜„ν•  수 μžˆλ‹€.

ci=βˆ‘jnijri=βˆ‘inij\begin{aligned} c_i &= \sum_j n_{ij} \\ r_i &= \sum_i n_{ij} \end{aligned}ci​ri​​=jβˆ‘β€‹nij​=iβˆ‘β€‹nij​​

이λ₯Ό 톡해 ν™•λ₯ μ˜ ν•©μ˜ 법칙(sum rule)을 λ„μΆœν•΄λ‚Ό 수 μžˆλ‹€. p(X=xi)p(X=x_i)p(X=xi​)λ₯Ό μ£Όλ³€ ν™•λ₯ (marginal probability)이라고도 ν•œλ‹€.

def marginal_probability(k, A, axis=0):
    """
    k: either index of x element or index of y element
    """
    A_sum = A.sum(axis=axis)
    return A_sum[k] / A_sum.sum()

# x_1 --> (8 + 5 + 1) / 83
p_x1 = marginal_probability(0, A, axis=0)
print(round(p_x1, 4))
# 0.1687

X=xiX=x_iX=xi​인 사둀듀을 κ³ λ €ν•˜μ—¬ μ΄μ€‘μ—μ„œ Y=yjY=y_jY=yj​인 ν™•λ₯ , 즉 쑰건뢀 ν™•λ₯ (conditional probability) p(Y=yj∣X=xi)p(Y=y_j \vert X=x_i)p(Y=yjβ€‹βˆ£X=xi​)λ₯Ό ꡬ할 수 μžˆλ‹€. κ·Έλ¦Ό 1.2.2μ—μ„œ λΆ„ν•΄ν•˜λ©΄ X=xiX=x_iX=xiβ€‹μ˜ μ£Όλ³€ ν™•λ₯ (marginal probability)μ€‘μ—μ„œ Y=yjY=y_jY=yj​가 μ°¨μ§€ν•˜λŠ” λΉ„μœ¨λ‘œ ꡬ할 수 μžˆλ‹€.

def conditional_probability(i, j, A, axis=0):
    """
    i: index of x element, set axis=0 if it is a condition
    j: index of y element, set axis=1 if it is a condition
    """
    A_sum = A.sum(axis=axis)
    sel_dim = i if axis == 0 else j 
    return A[j, i] / A_sum[sel_dim]

# y_2 | x_1 --> 5 / (8 + 5 + 1)
p_y2_x1 = conditional_probability(0, 1, A, axis=0)
print(round(p_y2_x1, 4))

μˆ˜μ‹ 1.5, 1.7, 1.8을 κ²°ν•©ν•˜λ©΄, ν™•λ₯ μ˜ 곱의 법칙(product rule)을 λ„μΆœν•΄λ‚Ό 수 μžˆλ‹€.

p(X=xi,Y=yj)=p(Y=yj∣X=xi)p(X=xi)=nijN=nijciciN(1.9)\tag{1.9} \begin{aligned} p(X=x_i, Y=y_j) &= p(Y=y_j \vert X=x_i)p(X=x_i) \\ &= \dfrac{n_{ij}}{N} = \dfrac{n_{ij}}{c_i} \dfrac{c_i}{N} \end{aligned}p(X=xi​,Y=yj​)​=p(Y=yjβ€‹βˆ£X=xi​)p(X=xi​)=Nnij​​=ci​nij​​Nci​​​(1.9)

μœ„μ™€ 같이 ν‘œν˜„μ€ λ„ˆλ¬΄ λ³΅μž‘ν•˜λ‹ˆ μ‘°κΈˆλ” κ°„λ‹¨ν•˜κ²Œ ν™•λ₯ λ³€μˆ˜μ˜ 뢄포λ₯Ό ν‘œν˜„ν•  λ•ŒλŠ” p(X)p(X)p(X), ν™•λ₯ λ³€μˆ˜κ°€ μ·¨ν•  수 μžˆλŠ” κ°’μ˜ 뢄포을 ν‘œν˜„ν•  λ•ŒλŠ” p(x)p(x)p(x)둜 μ•½μ†ν•œλ‹€.

sumΒ rulep(X)=βˆ‘Yp(X,Y)productΒ rulep(X,Y)=p(Y∣X)p(X)\begin{aligned} \text{sum rule} && p(X) &= \sum_Y p(X, Y) \\ \text{product rule} && p(X, Y) &= p(Y \vert X)p(X) \end{aligned}sumΒ ruleproductΒ rule​​p(X)p(X,Y)​=Yβˆ‘β€‹p(X,Y)=p(Y∣X)p(X)​

곱의 λŒ€μΉ­μ„± p(X,Y)=p(Y,X)p(X, Y) = p(Y, X)p(X,Y)=p(Y,X)μœΌλ‘œλΆ€ν„° 쑰건뢀 ν™•λ₯ μ˜ κ΄€κ³„μ‹μœΌλ‘œ 베이즈 정리(Bayes' theorem)을 λ„μΆœν•΄λ‚Ό 수 μžˆλ‹€.

p(Y∣X)=p(X∣)p(Y)p(X)(1.12)\tag{1.12} p(Y \vert X) = \dfrac{p(X\vert)p(Y)}{p(X)}p(Y∣X)=p(X)p(X∣)p(Y)​(1.12)

μ§€κΈˆκΉŒμ§€ 배운 κ²ƒμœΌλ‘œ κ·Έλ¦Ό 1.2.1의 μ˜ˆμ‹œμ—μ„œ μ–΄λ–€ 과일을 μ„ νƒν–ˆλŠ”λ° κ·Έ 과일이 μ˜€λ Œμ§€λΌλ©΄, 이 μ˜€λ Œμ§€κ°€ μ–΄λ–€ μƒμžμ—μ„œ λ‚˜μ™”μ„μ§€λ₯Ό 예츑 ν•΄λ³Ό 수 μžˆλ‹€.

  1. 각 μƒμž(ν™•λ₯ λ³€μˆ˜ BBB)λ₯Ό μ„ νƒν–ˆμ„ λ•Œ 각각의 과일(ν™•λ₯ λ³€μˆ˜ FFF)이 λ‚˜μ˜¬ ν™•λ₯ μ€ λ‹€μŒκ³Ό κ°™λ‹€.

    p(F=a∣B=r)=1/4p(F=o∣B=r)=3/4p(F=a∣B=b)=3/4p(F=o∣B=b)=1/4\begin{aligned} p(F=a \vert B=r) &= 1/4 \\ p(F=o \vert B=r) &= 3/4 \\ p(F=a \vert B=b) &= 3/4 \\ p(F=o \vert B=b) &= 1/4 \\ \end{aligned}p(F=a∣B=r)p(F=o∣B=r)p(F=a∣B=b)p(F=o∣B=b)​=1/4=3/4=3/4=1/4​
  2. ν™•λ₯ μ˜ ν•©μ˜ 법칙과 곱의 법칙을 μ μš©ν•˜μ—¬ μ˜€λ Œμ§€λ₯Ό κ³ λ₯΄λŠ” 전체 ν™•λ₯ μ„ 계산할 수 μžˆλ‹€.

    p(F=o)=p(F=o∣B=r)p(B=r)+p(F=o∣B=b)p(B=b)=34Γ—410+14Γ—610=920\begin{aligned} p(F=o) &= p(F=o \vert B=r)p(B=r) + p(F=o \vert B=b)p(B=b) \\ &= \dfrac{3}{4}\times \dfrac{4}{10} + \dfrac{1}{4}\times\dfrac{6}{10} = \dfrac{9}{20} \end{aligned}p(F=o)​=p(F=o∣B=r)p(B=r)+p(F=o∣B=b)p(B=b)=43​×104​+41​×106​=209​​
  3. 베이즈 정리λ₯Ό ν™œμš©ν•΄ κ΅¬ν•˜κ³  싢은 문제의 ν™•λ₯ μ„ κ΅¬ν•œλ‹€.

    p(B=r∣F=o)=p(F=o∣B=r)p(B=r)p(F=o)=34Γ—410Γ—209=23p(B=b∣F=o)=1βˆ’23=13\begin{aligned} p(B=r \vert F=o) &= \dfrac{p(F=o \vert B=r)p(B=r)}{p(F=o)} = \dfrac{3}{4} \times \dfrac{4}{10} \times \dfrac{20}{9} = \frac{2}{3} \\ p(B=b \vert F=o) &= 1 - \frac{2}{3} = \frac{1}{3} \end{aligned}p(B=r∣F=o)p(B=b∣F=o)​=p(F=o)p(F=o∣B=r)p(B=r)​=43​×104​×920​=32​=1βˆ’32​=31​​

μ΄λŠ” λ‹€μŒκ³Ό 같이 해석할 수 μžˆλ‹€. μ–΄λ–€ λ°•μŠ€λ₯Ό μ„ νƒν–ˆλ‹€λŠ” 사건을 κ°€λ₯΄ν‚€λŠ” ν™•λ₯ λ³€μˆ˜ BBB의 ν™•λ₯ (p(B)p(B)p(B))은 사전 ν™•λ₯ (prior probability)이라고 ν•œλ‹€. κ·Έ μ΄μœ λŠ” κ΄€μ‹¬μžˆλŠ” 사항인 μ–΄λ–€ 과일이 선택 λ˜μ—ˆλŠ”μ§€λ₯Ό κ΄€μ°°ν•˜κΈ° 'μ „'의 ν™•λ₯ μ΄κΈ° λ•Œλ¬Έμ΄λ‹€. μ„ νƒν•œ 과일이 μ˜€λ Œμ§€λΌλŠ” 것을 μ•Œκ²Œ λœλ‹€λ©΄ 베이즈 정리λ₯Ό ν™œμš©ν•˜μ—¬ p(B∣F)p(B\vert F)p(B∣F)λ₯Ό ꡬ할 수 μžˆλ‹€. 이λ₯Ό 사후 ν™•λ₯ (posterior probability)라고 ν•˜λ©°, κ·Έ μ΄μœ λŠ” 사건 FFFλ₯Ό κ΄€μΈ‘ν•œ 'ν›„'의 ν™•λ₯ μ΄κΈ° λ•Œλ¬Έμ΄λ‹€.

λ§ˆμ§€λ§‰μœΌλ‘œ "두 ν™•λ₯ λ³€μˆ˜κ°€ 독립적(independent)이닀"라고 ν•˜λŠ” 것은 두 ν™•λ₯ λ³€μ˜ ν™•λ₯ μ˜ 곱이 κ²°ν•©ν™•λ₯ κ³Ό 같은 경우λ₯Ό λ§ν•œλ‹€. p(X,Y)=p(X)p(Y)p(X, Y) = p(X)p(Y)p(X,Y)=p(X)p(Y)

1.2.1 Probability densities(ν™•λ₯  밀도)

μ§€κΈˆκΉŒμ§€ 이산(descrete) μ‚¬κ±΄λ“€μ˜ ν™•λ₯ μ„ λ‹€λ€˜λŠ”λ°, 연속적인(continious) λ³€μˆ˜μ˜ ν™•λ₯ μ„ μ•Œμ•„λ³Έλ‹€. μ‹€μˆ˜ ν™•λ₯ λ³€μˆ˜ xxxκ°€ (x,x+Ξ΄x)(x, x+\delta x)(x,x+Ξ΄x) κ΅¬κ°„μ˜ 값을 κ°€μ§€κ³  ν™•λ₯ μ΄ p(x)Ξ΄xp(x) \delta xp(x)Ξ΄x라면, p(x)p(x)p(x)λŠ” xxx의 ν™•λ₯  밀도(probability density)라고 ν•œλ‹€. μ΄λ•Œ xxxκ°€ (a,b)(a, b)(a,b)ꡬ간 μ‚¬μ΄μ˜ 값을 κ°€μ§ˆ ν™•λ₯ μ€ λ‹€μŒκ³Ό κ°™λ‹€.

μΆ”κ°€λ‘œ ν™•λ₯ μ˜ μ •μ˜μ— μ˜ν•˜μ—¬ λ‹€μŒ 쑰건을 λ§Œμ‘±ν•΄μ•Όν•œλ‹€.

  1. p(x)β‰₯0p(x) \geq 0p(x)β‰₯0

  2. βˆ«βˆ’βˆžβˆžp(x)dx=1\int_{-\infty}^{\infty} p(x) dx = 1βˆ«βˆ’βˆžβˆžβ€‹p(x)dx=1

ν™•λ₯  λ°€λ„μ˜ μ΅œλŒ“κ°’μ€ μ–΄λ–€ ν™•λ₯ λ³€μˆ˜λ₯Ό μ„ νƒν•˜λŠ”μ§€μ— λ”°λΌμ„œ 달라진닀. 예λ₯Ό λ“€μ–΄ x=g(y)x=g(y)x=g(y)의 λ³€ν™˜μ„ ν•˜κ²Œ 되면, ν•¨μˆ˜ f(x)f(x)f(x) λŠ” f^(y)=f(g(y))\hat{f}(y) = f(g(y))f^​(y)=f(g(y))둜 바뀐닀. xxx에 λŒ€ν•œ ν™•λ₯  밀도 ν•¨μˆ˜ px(x)p_x(x)px​(x)와 yyy에 λŒ€ν•œ ν™•λ₯  밀도 ν•¨μˆ˜ py(y)p_y(y)py​(y)λŠ” μ„œλ‘œ λ‹€λ₯Έ ν™•λ₯  밀도λ₯Ό κ°€μ§„λ‹€. (x,x+Ξ΄x)(x, x + \delta x)(x,x+Ξ΄x)λ²”μœ„μ— μ†ν•˜λŠ” 관찰값은 (y,y+Ξ΄y)(y, y + \delta y)(y,y+Ξ΄y)둜 λ³€ν™˜λœλ‹€. μ΄λŠ” λΉ„μ„ ν˜• λ³€μˆ˜ λ³€ν™˜μ‹œ μ•Όμ½”λΉ„μ•ˆ 인자(Jacobian Factor)κ°€ 따라 λΆ™κΈ° λ•Œλ¬Έμ΄λ‹€.

ν™•λ₯ λ³€μˆ˜ xxxκ°€ (βˆ’βˆž,z)(-\infty, z)(βˆ’βˆž,z) λ²”μœ„μ— 속할 ν™•λ₯ μ€ λˆ„μ  뢄포 ν•¨μˆ˜(cumulative distribution function) 라고 ν•œλ‹€.

P(z)=βˆ«βˆ’βˆžzp(x)dx(1.28)\tag{1.28} P(z) = \int_{-\infty}^{z} p(x) dxP(z)=βˆ«βˆ’βˆžz​p(x)dx(1.28)

μ—¬κΈ°μ„œ Pβ€²(x)=p(x)P'(x) = p(x)Pβ€²(x)=p(x) λ‹€.

κ·Έλ¦Ό 1.2.4 μ—μ„œ ν™•λ₯  밀도 ν•¨μˆ˜(λΉ¨κ°•)와 λˆ„μ  뢄포 ν•¨μˆ˜(νŒŒλž‘)의 λͺ¨μ–‘을 확인 ν•  수 μžˆλ‹€. 주의 ν•  점은 ν™•λ₯  λ°€λ„λŠ” 일정 λ²”μœ„Ξ΄x\delta xΞ΄x 내에 μ •μ˜λ˜λŠ” ν•¨μˆ˜λ‹€.

벑터 x=(x1,x2,⋯ ,xD)\mathbf{x} = (x_1, x_2, \cdots, x_D)x=(x1​,x2​,β‹―,xD​)둜 μ£Όμ–΄μ§„ λ‹€λ³€μˆ˜μΈ 경우, λ˜‘κ°™μ΄ ν™•λ₯  밀도 p(x)=p(x1,x2,⋯ ,xD)p(\mathbf{x}) = p(x_1, x_2, \cdots, x_D)p(x)=p(x1​,x2​,β‹―,xD​)λ₯Ό μ •μ˜ν•  수 μžˆλ‹€. λ‹¨λ³€μˆ˜μ™€ 같이 λ‹€μŒ 쑰건을 λ§Œμ‘±ν•΄μ•Όν•œλ‹€.

  1. p(x)β‰₯0p(\mathbf{x}) \geq 0p(x)β‰₯0

  2. βˆ«βˆ’βˆžβˆžp(x)dx=1\int_{-\infty}^{\infty} p(\mathbf{x}) d\mathbf{x} = 1βˆ«βˆ’βˆžβˆžβ€‹p(x)dx=1

λ§Œμ•½ ν™•λ₯ λ³€μˆ˜ xxxκ°€ 이산확λ₯ λ³€μˆ˜μΈ 경우 p(x)p(x)p(x)λ₯Ό ν™•λ₯  μ§ˆλŸ‰ ν•¨μˆ˜(probability mass function)이라고도 ν•œλ‹€.

λ˜ν•œ, ν™•λ₯  밀도 ν•¨μˆ˜μ— ν•©μ˜ 법칙, 곱의 법칙, 베이즈 정리λ₯Ό ν™œμš©ν•  수 μžˆλ‹€.

p(x)=∫p(x,y)dyp(x,y)=p(y∣x)p(x)\begin{aligned} p(x) &= \int p(x,y) dy \\ p(x, y) &= p(y \vert x) p(x)\end{aligned}p(x)p(x,y)​=∫p(x,y)dy=p(y∣x)p(x)​

1.2.2 Expectations and covariances

μ–΄λ–€ ν™•λ₯  뢄포 p(x)p(x)p(x)ν•˜μ— ν™•λ₯  ν•¨μˆ˜ f(x)f(x)f(x)의 평균을 κΈ°λŒ“κ°’(expectation)이라고 ν•˜λ©°, E(f)\Bbb{E}(f)E(f)라고 ν‘œκΈ°ν•œλ‹€.

  • ν™•λ₯  μ§ˆλŸ‰ ν•¨μˆ˜μΈ 경우: E[f]=βˆ‘xp(x)f(x)\Bbb{E}[f] = \sum_x p(x)f(x)E[f]=βˆ‘x​p(x)f(x)

  • ν™•λ₯  밀도 ν•¨μˆ˜μΈ 경우: E[f]=∫xp(x)f(x)dx\Bbb{E}[f] = \int_x p(x)f(x)dxE[f]=∫x​p(x)f(x)dx

λ§Œμ•½ ν™•λ₯  λΆ„ν¬μ—μ„œ μœ ν•œν•œ NNN개의 μƒ˜ν”Œμ„ μΆ”μΆœν•œκ±°λΌλ©΄, 각 ν¬μΈνŠΈλ“€μ˜ μœ ν•œν•œ ν•©μ‚°μœΌλ‘œ κΈ°λŒ“κ°’μ„ 근사(approximate)ν•  수 μžˆλ‹€(μ°¨ν›„ 11μž₯μ—μ„œ ν‘œλ³Έ μΆ”μΆœ λ°©λ²•λ‘ μ—μ„œ ν™œμš©ν•œλ‹€).

λ‹€λ³€μˆ˜ ν•¨μˆ˜μ˜ 기뱃값을 ꡬ할 κ²½μš°μ—λŠ” μ–΄λ–€ λ³€μˆ˜μ— λŒ€ν•΄ 평균을 λ‚΄λŠ”μ§€λ₯Ό μ§€μ •ν•˜μ—¬ 계산할 수 μžˆλ‹€. μ˜ˆμ‹œλ‘œ Ex[f(x,y)]\Bbb{E}_x[f(x, y)]Ex​[f(x,y)]λŠ” ν•¨μˆ˜ f(x,y)f(x, y)f(x,y)의 평균값을 xxx의 뢄포에 λŒ€ν•΄ κ΅¬ν•˜λΌλŠ” 의미이며, μ΅œμ’…μ μœΌλ‘œ yyy에 λŒ€ν•œ ν•¨μˆ˜κ°€ λœλ‹€.

λ˜ν•œ 쑰건뢀 ν™•λ₯ μ²˜λŸΌ 쑰건뢀 κΈ°λŒ“κ°’(conditional expectation)도 ꡬ할 수 μžˆλ‹€.

λΆ„μ‚°(variance)은 λ‹€μŒκ³Ό 같이 μ •μ˜λœλ‹€.

곡뢄산(covariance)은 λ‹€μŒκ³Ό 같이 μ •μ˜λœλ‹€.

λ‹€λ³€μˆ˜μ˜ 경우 λ‹€μŒκ³Ό κ°™λ‹€.

1.2.3 Bayesian probabilities

ν™•λ₯ μ—λŠ” 두 κ°€μ§€ 관점이 μžˆλ‹€.

  1. λΉˆλ„μ (frequentist) ν˜Ήμ€ 고전적(classical) 관점: ν™•λ₯ μ„ μž„μ˜μ˜ 반볡 κ°€λŠ₯ν•œ μ‚¬κ±΄μ˜ λΉˆλ„μˆ˜

  2. λ² μ΄μ§€μ•ˆ(Bayesian) 관점: λΆˆν™•μ‹€μ„±μ„ μ •λŸ‰ν™”ν•˜κ³  증거λ₯Ό 톡해 λΆˆν™•μ‹€μ„±μ„ 쀄여 λ‚˜κ°€λŠ” 것, λΆˆν™•μ‹€μ„±μ„ λ‚˜νƒ€λ‚΄λŠ” λ„κ΅¬λ‘œ ν™•λ₯ μ„ μ‚¬μš©.

1.1절의 μ˜ˆμ œμ—μ„œ λ§€κ°œλ³€μˆ˜ w\mathbf{w}wλ₯Ό λ² μ΄μ§€μ•ˆ 관점을 μ‚¬μš©ν•˜λ©΄, ν™•λ₯ λ‘ μ˜ λ‹€μ–‘ν•œ μž₯치λ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈ λ§€κ°œλ³€μˆ˜μ˜ λΆˆν™•μ‹€μ„±μ„ μ„€λͺ…ν•  수 μžˆλ‹€. 첫 데이터λ₯Ό κ΄€μ°°ν•˜κΈ° μ „μ˜ w\mathbf{w}w에 λŒ€ν•œ 가정을 사전 ν™•λ₯ λΆ„포 p(w)p(\mathbf{w})p(w)둜 ν‘œν˜„ν•  수 μžˆλ‹€. 그리고 κ΄€μΈ‘λœ 데이터 D={t1,⋯ ,tN}\mathcal{D} = \{t_1, \cdots, t_N\}D={t1​,β‹―,tN​}은 쑰건뢀 ν™•λ₯  p(D∣w)p(\mathcal{D}\vert \mathbf{w})p(D∣w)둜써 μž‘μš©ν•œλ‹€. 데이터 κ΄€μ°° ν›„ λ§€κ°œλ³€μˆ˜μ˜ ν™•λ₯  p(w∣D)p(\mathbf{w}\vert \mathcal{D})p(w∣D)을 λ² μ΄μ§€μ•ˆ 정리둀 ν’€μ–΄λ‚΄λ©΄ λ‹€μŒκ³Ό κ°™λ‹€.

μˆ˜μ‹ 1.43 우츑의 p(D∣w)p(\mathcal{D}\vert \mathbf{w})p(D∣w)λŠ” κ°€λŠ₯도 ν•¨μˆ˜(likelihood function)라고 ν•˜λ©° μ΄λŠ” λ§€κ°œλ³€μˆ˜ 벑터 w\mathbf{w}w의 ν•¨μˆ˜λ‘œ λ³Ό 수 μžˆλ‹€. κ°€λŠ₯도 ν•¨μˆ˜μ˜ μ˜λ―ΈλŠ” μ£Όμ–΄μ§„ w\mathbf{w}w에 λŒ€ν•΄ κ΄€μΈ‘λœ 데이터 집합이 μ–Όλ§ˆλ‚˜ 'μ΄λ ‡κ²Œ λ‚˜νƒ€λ‚  κ°€λŠ₯성이 μžˆλŠ”κ°€'λ₯Ό ν‘œν˜„ν•œλ‹€. κ°€λŠ₯도 ν•¨μˆ˜λŠ” w\mathbf{w}w에 λŒ€ν•œ ν™•λ₯ λΆ„포가 μ•„λ‹ˆκΈ° λ•Œλ¬Έμ— 이λ₯Ό 적뢄해도 1이 될 ν•„μš”κ°€ μ—†λ‹€.

λΉˆλ„μ  관점과 λ² μ΄μ§€μ•ˆ κ΄€μ μ˜ μ°¨μ΄λŠ” κ°€λŠ₯도 ν•¨μˆ˜μ—μ„œ λ‚˜νƒ€λ‚œλ‹€.

λΉˆλ„μ  관점:

  • w\mathbf{w}wκ°€ κ³ μ •λœ λ§€κ°œλ³€μˆ˜μ΄κ³ , μ–΄λ–€ ν˜•νƒœμ˜ 'μΆ”μ •μž(estimator)' 데이터 D\mathcal{D}D의 뢄포λ₯Ό κ³ λ €ν•˜λ©΄μ„œ 였λ₯˜λ₯Ό μ€„μ΄λŠ” λ°©ν–₯으둜 λ§€κ°œλ³€μˆ˜κ°’μ΄ κ²°μ •λœλ‹€.

  • 보톡 estimator둜 μ΅œλŒ€ κ°€λŠ₯도(maximum likelihood)λ₯Ό μ‚¬μš©ν•˜λ©°, w\mathbf{w}wκ°€ κ°€λŠ₯도 ν•¨μˆ˜ p(D∣w)p(\mathcal{D}\vert \mathbf{w})p(D∣w)λ₯Ό μ΅œλŒ€ν™”ν•˜λŠ” κ°’μœΌλ‘œ μ„ νƒλœλ‹€. 보톡 음의 둜그 κ°€λŠ₯도(negative log likelihood)λ₯Ό μ˜€μ°¨ν•¨μˆ˜(error function)둜 μ„€μ •ν•˜μ—¬ μΆ”μ •ν•œλ‹€(단쑰 κ°μ†Œν•˜κΈ° λ•Œλ¬Έμ— κ°€λŠ₯λ„μ˜ μ΅œλŒ“κ°’μ„ μ°ΎλŠ” 것은 κ³§ μ˜€μ°¨ν•¨μˆ˜μ˜ μ΅œμ†Ÿκ°’μ„ μ°ΎλŠ” 것과 동일).

  • 였차λ₯Ό μΈ‘μ •ν•˜λŠ” 방법쀑 ν•˜λ‚˜λŠ” λΆ€νŠΈμŠ€νŠΈλž©(bootstrap)인데, 데이터 μ§‘ν•©μ—μ„œ μ—¬λŸ¬λ²ˆ 쀑볡 κ°€λŠ₯ν•˜κ²Œ μž„μ˜λ‘œ μΆ”μΆœν•˜μ—¬ μ—¬λŸ¬κ°œμ˜ 데이터 μ§‘ν•©μœΌλ‘œ λ§Œλ“  ν›„, μ—¬λŸ¬λ²ˆ λ§€κ°œλ³€μˆ˜λ₯Ό μΆ”μ •ν•˜μ—¬ μΆ”μ •κ°’μ˜ 톡계적 정확도λ₯Ό νŒλ‹¨ν•˜λŠ” 방법이닀.

λ² μ΄μ§€μ•ˆ 관점:

  • λ§Žμ€ 경우 쀑 ν•˜λ‚˜μ˜ 데이터 μ§‘ν•© D\mathcal{D}D이 κ΄€μΈ‘λœ 것일 뿐이며, λ§€κ°œλ³€μˆ˜ w\mathbf{w}w의 λΆˆν™•μ‹€μ„±μ€ w\mathbf{w}w의 λΆ„ν¬λ‘œ ν‘œν˜„ν•œλ‹€.

  • μž₯점쀑 ν•˜λ‚˜λŠ” 사전 지식을 μΆ”λ‘  과정에 μžμ—°μŠ€λŸ½κ²Œ ν¬ν•¨μ‹œν‚¬ 수 μžˆλ‹€λŠ” 것이닀. μ΄λŠ” κ³Όλ„ν•œ 결둠이 λ‚˜μ˜€μ§€ μ•Šκ²Œ λ°©μ§€ν•œλ‹€. 예: 동전을 μ„Έλ²ˆ λ˜μ‘ŒλŠ”λ° λͺ¨λ‘ μ•žλ©΄μΈ 경우 λΉˆλ„μ  κ΄€μ μ—μ„œ ν™•λ₯ μ€ 1이닀.

  • λͺ‡ κ°€μ§€ λΉ„νŒμ€‘ ν•˜λ‚˜λŠ” 사전 ν™•λ₯ μ˜ 선택에 따라 결둠이 λ‚˜κΈ° λ•Œλ¬Έμ— μΆ”λ‘  과정에 주관이 포함될 μˆ˜λ°–μ— μ—†λ‹€. 이λ₯Ό λ³΄μ •ν•˜κΈ° μœ„ν•΄ 무정보적(noninformative) 사전 뢄포λ₯Ό μ‚¬μš©ν•˜λŠ” κ²½μš°λ„ μžˆλ‹€.

  • λ² μ΄μ§€μ•ˆ 절차λ₯Ό μ™„μ „νžˆ ν™œμš©ν•˜κΈ° μœ„ν•΄μ„œλŠ” 전체 λ§€κ°œλ³€μˆ˜ 곡간에 λŒ€ν•œ marginalize(μ£Όλ³€ν™”: ν•© λ˜λŠ” 적뢄)이 ν•„μš”ν•˜λ‹€. λͺ¬ν…Œ μΉ΄λ₯Όλ‘œ 방법둠과 컴퓨터 μ—°μ‚° 속도, λ©”λͺ¨λ¦¬μ˜ λ°œμ „μœΌλ‘œ μ‚¬μš©ν•  수 있게 λ˜μ—ˆλ‹€.

1.2.4 The Gaussian distribution

2μž₯μ—μ„œ λ‹€μ–‘ν•œ ν™•λ₯  뢄포λ₯Ό μ‚΄νŽ΄λ³΄κΈ° 전에 자주 λ³΄λŠ” κ°€μš°μ‹œμ•ˆ 뢄포(Gaussian distribution) λ˜λŠ” μ •κ·œ 뢄포(normal distribution)λ₯Ό λ¨Όμ € μ‚΄νŽ΄λ³Έλ‹€.

단일 μ‹€μˆ˜ ν™•λ₯ λ³€μˆ˜ xxx에 λŒ€ν•΄μ„œ κ°€μš°μ‹œμ•ˆ λΆ„ν¬λŠ” λ‹€μŒκ³Ό κ°™λ‹€.

  • ΞΌ\muΞΌλŠ” 평균(mean), Οƒ2\sigma^2Οƒ2 λΆ„μ‚°(variance), Οƒ\sigmaΟƒλŠ” ν‘œμ€€νŽΈμ°¨(standard deviation)라고 ν•˜κ³ , λΆ„μ‚°μ˜ 역인 Ξ²=1/Οƒ2\beta = 1/\sigma^2Ξ²=1/Οƒ2λŠ” 정밀도(precision)라고 ν•œλ‹€.

  • κ°€μš°μ‹œμ•ˆ λΆ„ν¬λŠ” ν™•λ₯  λΆ„ν¬μ˜ νŠΉμ„±μ„ λ§Œμ‘±ν•œλ‹€.

    N(x∣μ,Οƒ2)>0βˆ«βˆ’βˆžβˆžN(x∣μ,Οƒ2)dx=1\begin{aligned} \mathcal{N}(x \vert \mu, \sigma^2) > 0 \\ \int_{-\infty}^{\infty} \mathcal{N}(x \vert \mu, \sigma^2) dx = 1 \end{aligned}N(x∣μ,Οƒ2)>0βˆ«βˆ’βˆžβˆžβ€‹N(x∣μ,Οƒ2)dx=1​

κ°€μš°μ‹œμ•ˆ 뢄포λ₯Ό λ”°λ₯΄λŠ” μž„μ˜μ˜ xxx에 λŒ€ν•΄ ν•¨μˆ˜μ˜ κΈ°λŒ“κ°’μ„ κ΅¬ν•˜λ©΄ λ‹€μŒκ³Ό κ°™λ‹€.

뢄산은 λ‹€μŒκ³Ό κ°™λ‹€.

var[x]=E[x2]βˆ’E[x]2=βˆ«βˆ’βˆžβˆžN(x∣μ,Οƒ2)x2dxβˆ’ΞΌ2=ΞΌ2+Οƒ2βˆ’ΞΌ2=Οƒ2\begin{aligned} var[x] &= \Bbb{E}[x^2] - \Bbb{E}[x]^2 \\ &= \int_{-\infty}^{\infty} \mathcal{N}(x \vert \mu, \sigma^2)x^2 dx - \mu^2 \\ &= \mu^2 + \sigma^2 - \mu^2 \\ & = \sigma^2 \end{aligned}var[x]​=E[x2]βˆ’E[x]2=βˆ«βˆ’βˆžβˆžβ€‹N(x∣μ,Οƒ2)x2dxβˆ’ΞΌ2=ΞΌ2+Οƒ2βˆ’ΞΌ2=Οƒ2​

이제 연속 λ³€μˆ˜ D차원 벑터 x=(x1,x2,β‹―xD)T\mathbf{x} = (x_1, x_2, \cdots x_D)^Tx=(x1​,x2​,β‹―xD​)T둜 ν™•μž₯ν•œλ‹€. x\mathbf{x}x에 λŒ€ν•œ κ°€μš°μ‹œμ•ˆ λΆ„ν¬λŠ” λ‹€μŒκ³Ό κ°™λ‹€.

  • D차원 벑터 ΞΌ\mathbf{\mu}ΞΌλŠ” 평균값, DΓ—DD \times DDΓ—Dν–‰λ ¬ Ξ£\SigmaΞ£λŠ” 곡뢄산이라고 ν•œλ‹€. ∣Σ∣\vert \Sigma \vertβˆ£Ξ£βˆ£λŠ” Ξ£\SigmaΣ의 행렬식이닀.

λ‹€μ‹œ 단일 μ‹€μˆ˜ ν™•λ₯ λ³€μˆ˜λ‘œ λŒμ•„μ˜€λ©΄, κ΄€μΈ‘ 데이터 X=(x1,x2,⋯ ,xN)TX = (x_1, x_2, \cdots, x_N)^TX=(x1​,x2​,β‹―,xN​)Tμ—μ„œ 각 λ³€μˆ˜ xnx_nxnβ€‹λŠ” 평균값 ΞΌ\muΞΌ, λΆ„μ‚° Οƒ2\sigma^2Οƒ2λ₯Ό λ”°λ₯΄λŠ” κ°€μš°μ‹œμ•ˆ λΆ„ν¬μ—μ„œ λ…λ¦½μ μœΌλ‘œ μΆ”μΆœν•œλ‹€κ³  κ°€μ •ν•œλ‹€. 이λ₯Ό 독립적이고 λ™μΌν•˜κ²Œ 뢄포(independent and identically distributed - i.i.d) λ˜μ—ˆλ‹€κ³  ν•œλ‹€. λ”°λΌμ„œ XXXλŠ” i.i.d이기 λ•Œλ¬Έμ— ΞΌ,Οƒ2\mu, \sigma^2ΞΌ,Οƒ2κ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ 쑰건뢀 ν™•λ₯ μ€ λ‹€μŒκ³Ό κ°™λ‹€.

μˆ˜μ‹ 1.53은 ΞΌ,Οƒ2\mu, \sigma^2ΞΌ,Οƒ2에 λŒ€ν•œ κ°€λŠ₯도 ν•¨μˆ˜(likelihood function)에 ν•΄λ‹Ήν•œλ‹€. κ΄€μΈ‘λœ 데이터 μ§‘ν•©(XXX)을 λ°”νƒ•μœΌλ‘œ λ§€κ°œλ³€μˆ˜ ΞΌ,Οƒ2\mu, \sigma^2ΞΌ,Οƒ2λ₯Ό κ²°μ •μ§“λŠ” 방법 쀑 ν•˜λ‚˜λŠ” κ°€λŠ₯도 ν•¨μˆ˜λ₯Ό μ΅œλŒ€ν™”ν•˜λŠ” λ§€κ°œλ³€μˆ˜λ₯Ό μ°ΎλŠ” 것이닀. μ΄λŠ” 양변에 λ‹¨μ‘°ν•¨μˆ˜μΈ log⁑\loglogλ₯Ό μ·¨ν•˜μ—¬ μ΅œλŒ“κ°’μ„ μ°ΎλŠ” 것과 λ™μΌν•˜λ‹€.

ΞΌ\muμ에 λŒ€ν•΄ μˆ˜μ‹ 1.54의 μ΅œλŒ“κ°’μ„ 찾으면, κ΄€μ°¬κ°’λ“€μ˜ 평균인 ν‘œλ³Έ 평균(sample mean)κ³Ό ν‘œλ³Έ λΆ„μ‚°(sample variance)은 λ‹€μŒκ³Ό κ°™λ‹€.

ΞΌMLE=1Nβˆ‘n=1NxnΟƒMLE2=1Nβˆ‘n=1N(xnβˆ’ΞΌMLE)2\begin{aligned} \mu_{MLE} &= \dfrac{1}{N}\sum_{n=1}^N x_n \\ \sigma_{MLE}^2 &= \dfrac{1}{N}\sum_{n=1}^N (x_n - \mu_{MLE})^2 \end{aligned}ΞΌMLE​σMLE2​​=N1​n=1βˆ‘N​xn​=N1​n=1βˆ‘N​(xnβ€‹βˆ’ΞΌMLE​)2​

κ·ΈλŸ¬λ‚˜ μ΄λ ‡κ²Œ κ΅¬ν•˜λŠ” 것은 λΆ„ν¬μ˜ 뢄산을 κ³Όμ†Œν‰κ°€ν•˜κ²Œ λœλ‹€. μœ„ μˆ˜μ‹λ“€μ˜ κΈ°λŒ“κ°’μ„ κ΅¬ν•˜λ©΄ λ‹€μŒκ³Ό κ°™λ‹€.

E[ΞΌMLE]=ΞΌE[ΟƒMLE2]=Nβˆ’1NΟƒ2\begin{aligned} \Bbb{E}[\mu_{MLE}] &= \mu \\ \Bbb{E}[\sigma_{MLE}^2] &= \dfrac{N-1}{N} \sigma^2 \end{aligned}E[ΞΌMLE​]E[ΟƒMLE2​]​=ΞΌ=NNβˆ’1​σ2​

즉, μ‹€μ œ 뢄산은 Nβˆ’1N\dfrac{N-1}{N}NNβˆ’1​ 만큼 μž‘μ•„μ Έ μžˆλ‹€λŠ” 것을 μ•Œ 수 있으며, μ΄λ ‡κ²Œ 차이가 λ‚˜λŠ” 것을 편ν–₯(bias) μ΄λΌλŠ” ν˜„μƒμ΄λ‹€. λ”°λΌμ„œ μ‹€μ œ λΆ„ν¬μ˜ λΆ„μ‚°(Οƒ~\tilde{\sigma}Οƒ~)을 μΆ”μ •ν•˜λ €λ©΄ λ‹€μŒκ³Ό κ°™λ‹€.

μˆ˜μ‹ 1.59μ—μ„œ μ•Œ μˆ˜μžˆλŠ” 것은 데이터 개수(NNN)κ°€ 클 수둝 μ΅œλŒ€ κ°€λŠ₯λ„λ‘œ κ΅¬ν•œ ν•΄(solution)μ—μ„œ 편ν–₯μΉ˜λŠ” 점점 쀄어든닀. λ³΅μž‘ν•œ λͺ¨λΈμΌ 수둝 μ΅œλŒ€ κ°€λŠ₯도 방법과 μ—°κ΄€λœ 편ν–₯ λ¬Έμ œλŠ” 심각해진닀. λ˜ν•œ, 이 편ν–₯ λ¬Έμ œλŠ” 과적합 문제의 근본적인 원인에 ν•΄λ‹Ήν•œλ‹€.

1.2.2
1.2.3

κ΄€λ ¨ λ‚΄μš© μ°Έκ³ :

1.2.4
링크