1.2 Probability Theory
Last updated
Was this helpful?
Last updated
Was this helpful?
ν¨ν΄μΈμμμ μ€μν κ°λ μ€ νλλ λΆνμ€μ±(uncertainty) μ΄λ€. νλ₯ μ΄λ‘ (Probability Theory) μ λΆνμ€μ±μ μ ννκ³ μμ μΈ λ°©μμΌλ‘ μΈ‘μ ν μ μλ μΌκ΄λ νλ μμν¬λ₯Ό μ 곡ν΄μ€λ€. λν κ²°μ μ΄λ‘ (Decision Theory) μ κ²°ν©νλ©΄ νμ¬ κ°μ§ μ 보λ΄μμ μ΅μ μ μμΈ‘μ λ΄λ¦΄μ μλλ‘ λμμ€λ€.
μ΄ μ±
μμλ λ€μ μμ λ‘ νλ₯ μ μκ°νλ €κ³ νλ€. νλ₯ λ³μ(Random Variable) λ‘ κ·Έλ¦Ό 1.2.1
μ λ°μ€λ₯Ό νννλ€. μ΄ νλ₯ λ³μ λ λΉ¨κ°μ()κ³Ό νλμ() λ κ°μ§ κ²½μ°κ° μλ€. λ°μ€ μμ μλ κ³ΌμΌμ μ’
λ₯ λν νλ₯ λ³μ λ‘ νννλ©°, μ¬κ³Ό()μ μ€λ μ§() λ κ°μ§ κ²½μ°κ° μλ€.
μμνκΈ° μ μ μ¬κ±΄μ λ°μ νμλ₯Ό μ΄ μννμλ‘ λλ κ°μ μ΄λ€ μ¬κ±΄(event)μ νλ₯ λ‘ μ μνλ€. λ°λΌμ λ€μ μ¬κ±΄λ€μ νλ₯ μ μ μ ν μ μλ€(λΉ¨κ°μ λ°μ€λ₯Ό μ νν νλ₯ μ 40%, νλμμ 60%λ€).
μ μ μμ λ°λ₯΄λ©΄, νλ₯ μ νμ 0κ³Ό 1μ¬μ΄μ κ°μ κ°μ§λ€. λν, μνΈ λ°°νμ (mutually exclusive)μ΄κ±°λ λͺ¨λ κ²°κ³Ό(outcomes)λ₯Ό ν¬ν¨νλ κ²½μ°, λͺ¨λ νλ₯ μ ν©μ 1μ΄ λμ΄μΌ νλ€.
μ¬κΈ°μ μ κΉ νλ₯ μμ ν©μ λ²μΉ(sum rule)κ³Ό κ³±μ λ²μΉ(product rule) μμλ³΄κ³ μ¨λ€.
κ·Έλ¦Ό 1.2.2
μμ , λ κ°μ νλ₯ λ³μκ° μλ€. λ κ°μ μ·¨ν μ μκ³ (λ κΉμ§), λ κ°μ μ·¨ν μ μλ€(λ κΉμ§). λν, μ μμ νλ³Έμ μΆμΆνλλ° μ΄ μλνμλ₯Ό μ΄λΌκ³ νλ€. κ·Έλ¦¬κ³ κ° κ°μ μ·¨νκ³ κ° κ°μ μ·¨νμ λμ μλ κ°―μλ₯Ό λΌκ³ νλ€. μ΄λ νλ₯ μ λΌκ³ νλ©°, μ κ²°ν© νλ₯ (joint probability) μ΄λΌκ³ νλ€.
μ€μ λ‘ μμλ‘ νμλ₯Ό μ§μ ν΄μ κ³μ°μ ν΄λ³΄μ.
\tag{1.5} p(X=x_i, Y=y_j) = \dfrac{n_{ij}}{N}
νλ₯ λ³μ μ κ΄κ³μμ΄ μ μλ νμλ₯Ό , μ κ΄κ³μμ΄ μ μλ νμλ₯Ό λΌκ³ νλ©΄, λ€μκ³Ό κ°μ΄ ννν μ μλ€.
μ΄λ₯Ό ν΅ν΄ νλ₯ μ ν©μ λ²μΉ(sum rule)μ λμΆν΄λΌ μ μλ€. λ₯Ό μ£Όλ³ νλ₯ (marginal probability)μ΄λΌκ³ λ νλ€.
\tag{1.7} p(X=x_i) = \dfrac{c_{i}}{N} = \sum_j^L p(X=x_i, Y=y_j)
μΈ μ¬λ‘λ€μ κ³ λ €νμ¬ μ΄μ€μμ μΈ νλ₯ , μ¦ μ‘°κ±΄λΆ νλ₯ (conditional probability) λ₯Ό ꡬν μ μλ€. κ·Έλ¦Ό 1.2.2
μμ λΆν΄νλ©΄ μ μ£Όλ³ νλ₯ (marginal probability)μ€μμ κ° μ°¨μ§νλ λΉμ¨λ‘ ꡬν μ μλ€.
\tag{1.8} p(Y=y_j \vert X=x_i) = \dfrac{n_ij}{c_{i}}
μμ 1.5, 1.7, 1.8μ κ²°ν©νλ©΄, νλ₯ μ κ³±μ λ²μΉ(product rule)μ λμΆν΄λΌ μ μλ€.
μμ κ°μ΄ ννμ λ무 볡μ‘νλ μ‘°κΈλ κ°λ¨νκ² νλ₯ λ³μμ λΆν¬λ₯Ό ννν λλ , νλ₯ λ³μκ° μ·¨ν μ μλ κ°μ λΆν¬μ ννν λλ λ‘ μ½μνλ€.
κ³±μ λμΉμ± μΌλ‘λΆν° μ‘°κ±΄λΆ νλ₯ μ κ΄κ³μμΌλ‘ λ² μ΄μ¦ μ 리(Bayes' theorem)μ λμΆν΄λΌ μ μλ€.
μ§κΈκΉμ§ λ°°μ΄ κ²μΌλ‘ κ·Έλ¦Ό 1.2.1
μ μμμμ μ΄λ€ κ³ΌμΌμ μ ννλλ° κ·Έ κ³ΌμΌμ΄ μ€λ μ§λΌλ©΄, μ΄ μ€λ μ§κ° μ΄λ€ μμμμ λμμμ§λ₯Ό μμΈ‘ ν΄λ³Ό μ μλ€.
κ° μμ(νλ₯ λ³μ )λ₯Ό μ ννμ λ κ°κ°μ κ³ΌμΌ(νλ₯ λ³μ )μ΄ λμ¬ νλ₯ μ λ€μκ³Ό κ°λ€.
νλ₯ μ ν©μ λ²μΉκ³Ό κ³±μ λ²μΉμ μ μ©νμ¬ μ€λ μ§λ₯Ό κ³ λ₯΄λ μ 체 νλ₯ μ κ³μ°ν μ μλ€.
λ² μ΄μ¦ μ 리λ₯Ό νμ©ν΄ ꡬνκ³ μΆμ λ¬Έμ μ νλ₯ μ ꡬνλ€.
μ΄λ λ€μκ³Ό κ°μ΄ ν΄μν μ μλ€. μ΄λ€ λ°μ€λ₯Ό μ ννλ€λ μ¬κ±΄μ κ°λ₯΄ν€λ νλ₯ λ³μ μ νλ₯ ()μ μ¬μ νλ₯ (prior probability)μ΄λΌκ³ νλ€. κ·Έ μ΄μ λ κ΄μ¬μλ μ¬νμΈ μ΄λ€ κ³ΌμΌμ΄ μ ν λμλμ§λ₯Ό κ΄μ°°νκΈ° 'μ 'μ νλ₯ μ΄κΈ° λλ¬Έμ΄λ€. μ νν κ³ΌμΌμ΄ μ€λ μ§λΌλ κ²μ μκ² λλ€λ©΄ λ² μ΄μ¦ μ 리λ₯Ό νμ©νμ¬ λ₯Ό ꡬν μ μλ€. μ΄λ₯Ό μ¬ν νλ₯ (posterior probability)λΌκ³ νλ©°, κ·Έ μ΄μ λ μ¬κ±΄ λ₯Ό κ΄μΈ‘ν 'ν'μ νλ₯ μ΄κΈ° λλ¬Έμ΄λ€.
λ§μ§λ§μΌλ‘ "λ νλ₯ λ³μκ° λ 립μ (independent)μ΄λ€"λΌκ³ νλ κ²μ λ νλ₯ λ³μ νλ₯ μ κ³±μ΄ κ²°ν©νλ₯ κ³Ό κ°μ κ²½μ°λ₯Ό λ§νλ€.
μ§κΈκΉμ§ μ΄μ°(descrete) μ¬κ±΄λ€μ νλ₯ μ λ€λ€λλ°, μ°μμ μΈ(continious) λ³μμ νλ₯ μ μμλ³Έλ€. μ€μ νλ₯ λ³μ κ° κ΅¬κ°μ κ°μ κ°μ§κ³ νλ₯ μ΄ λΌλ©΄, λ μ νλ₯ λ°λ(probability density)λΌκ³ νλ€. μ΄λ κ° κ΅¬κ° μ¬μ΄μ κ°μ κ°μ§ νλ₯ μ λ€μκ³Ό κ°λ€.
\tag{1.24} p(x \in (a,b)) = \int_a^b p(x) dx
μΆκ°λ‘ νλ₯ μ μ μμ μνμ¬ λ€μ 쑰건μ λ§μ‘±ν΄μΌνλ€.
νλ₯ λ°λμ μ΅λκ°μ μ΄λ€ νλ₯ λ³μλ₯Ό μ ννλμ§μ λ°λΌμ λ¬λΌμ§λ€. μλ₯Ό λ€μ΄ μ λ³νμ νκ² λλ©΄, ν¨μ λ λ‘ λ°λλ€. μ λν νλ₯ λ°λ ν¨μ μ μ λν νλ₯ λ°λ ν¨μ λ μλ‘ λ€λ₯Έ νλ₯ λ°λλ₯Ό κ°μ§λ€. λ²μμ μνλ κ΄μ°°κ°μ λ‘ λ³νλλ€. μ΄λ λΉμ ν λ³μ λ³νμ μΌμ½λΉμ μΈμ(Jacobian Factor)κ° λ°λΌ λΆκΈ° λλ¬Έμ΄λ€.
κ΄λ ¨ λ΄μ© μ°Έκ³ : λ§ν¬
νλ₯ λ³μ κ° λ²μμ μν νλ₯ μ λμ λΆν¬ ν¨μ(cumulative distribution function) λΌκ³ νλ€.
μ¬κΈ°μ λ€.
κ·Έλ¦Ό 1.2.4
μμ νλ₯ λ°λ ν¨μ(λΉ¨κ°)μ λμ λΆν¬ ν¨μ(νλ)μ λͺ¨μμ νμΈ ν μ μλ€. μ£Όμ ν μ μ νλ₯ λ°λλ μΌμ λ²μ λ΄μ μ μλλ ν¨μλ€.
λ²‘ν° λ‘ μ£Όμ΄μ§ λ€λ³μμΈ κ²½μ°, λκ°μ΄ νλ₯ λ°λ λ₯Ό μ μν μ μλ€. λ¨λ³μμ κ°μ΄ λ€μ 쑰건μ λ§μ‘±ν΄μΌνλ€.
λ§μ½ νλ₯ λ³μ κ° μ΄μ°νλ₯ λ³μμΈ κ²½μ° λ₯Ό νλ₯ μ§λ ν¨μ(probability mass function)μ΄λΌκ³ λ νλ€.
λν, νλ₯ λ°λ ν¨μμ ν©μ λ²μΉ, κ³±μ λ²μΉ, λ² μ΄μ¦ μ 리λ₯Ό νμ©ν μ μλ€.
μ΄λ€ νλ₯ λΆν¬ νμ νλ₯ ν¨μ μ νκ· μ κΈ°λκ°(expectation)μ΄λΌκ³ νλ©°, λΌκ³ νκΈ°νλ€.
νλ₯ μ§λ ν¨μμΈ κ²½μ°:
νλ₯ λ°λ ν¨μμΈ κ²½μ°:
λ§μ½ νλ₯ λΆν¬μμ μ νν κ°μ μνμ μΆμΆνκ±°λΌλ©΄, κ° ν¬μΈνΈλ€μ μ νν ν©μ°μΌλ‘ κΈ°λκ°μ κ·Όμ¬(approximate)ν μ μλ€(μ°¨ν 11μ₯μμ νλ³Έ μΆμΆ λ°©λ²λ‘ μμ νμ©νλ€).
\tag{1.35} \Bbb{E}[f] \simeq \dfrac{1}{N}\sum_{n=1}^N f(x_n)
λ€λ³μ ν¨μμ κΈ°λ±κ°μ ꡬν κ²½μ°μλ μ΄λ€ λ³μμ λν΄ νκ· μ λ΄λμ§λ₯Ό μ§μ νμ¬ κ³μ°ν μ μλ€. μμλ‘ λ ν¨μ μ νκ· κ°μ μ λΆν¬μ λν΄ κ΅¬νλΌλ μλ―Έμ΄λ©°, μ΅μ’ μ μΌλ‘ μ λν ν¨μκ° λλ€.
λν μ‘°κ±΄λΆ νλ₯ μ²λΌ μ‘°κ±΄λΆ κΈ°λκ°(conditional expectation)λ ꡬν μ μλ€.
\tag{1.37} \Bbb{E}_x[f\vert y] = \sum_x p(x \vert y) p(x)
λΆμ°(variance)μ λ€μκ³Ό κ°μ΄ μ μλλ€.
\tag{1.38} var[f] = \Bbb{E}[(f(x) - \Bbb{E}[f(x)])^2] = \Bbb{E}[f(x)^2] - \Bbb{E}[f(x)]^2
곡λΆμ°(covariance)μ λ€μκ³Ό κ°μ΄ μ μλλ€.
\tag{1.41} \begin{aligned} cov[x, y] &= \Bbb{E}_{x, y}[(x - \Bbb{E}[x])(y - \Bbb{E}[y])] \\ &= \Bbb{E}_{x, y}[xy] - \Bbb{E}[x]\Bbb{E}[y]\end{aligned}
λ€λ³μμ κ²½μ° λ€μκ³Ό κ°λ€.
\tag{1.42} \begin{aligned} cov[\mathbf{x}, \mathbf{y}] &= \Bbb{E}_{\mathbf{x}, \mathbf{y}}[(\mathbf{x} - \Bbb{E}[\mathbf{x}])(\mathbf{y}^T - \Bbb{E}[\mathbf{y}^T])] \\ &= \Bbb{E}_{\mathbf{x}, \mathbf{y}}[\mathbf{x}\mathbf{y}^T] - \Bbb{E}[\mathbf{x}]\Bbb{E}[\mathbf{y}^T]\end{aligned}
νλ₯ μλ λ κ°μ§ κ΄μ μ΄ μλ€.
λΉλμ (frequentist) νΉμ κ³ μ μ (classical) κ΄μ : νλ₯ μ μμμ λ°λ³΅ κ°λ₯ν μ¬κ±΄μ λΉλμ
λ² μ΄μ§μ(Bayesian) κ΄μ : λΆνμ€μ±μ μ λννκ³ μ¦κ±°λ₯Ό ν΅ν΄ λΆνμ€μ±μ μ€μ¬ λκ°λ κ², λΆνμ€μ±μ λνλ΄λ λκ΅¬λ‘ νλ₯ μ μ¬μ©.
1.1μ μ μμ μμ 맀κ°λ³μ λ₯Ό λ² μ΄μ§μ κ΄μ μ μ¬μ©νλ©΄, νλ₯ λ‘ μ λ€μν μ₯μΉλ₯Ό νμ©νμ¬ λͺ¨λΈ 맀κ°λ³μμ λΆνμ€μ±μ μ€λͺ ν μ μλ€. 첫 λ°μ΄ν°λ₯Ό κ΄μ°°νκΈ° μ μ μ λν κ°μ μ μ¬μ νλ₯ λΆν¬ λ‘ ννν μ μλ€. κ·Έλ¦¬κ³ κ΄μΈ‘λ λ°μ΄ν° μ μ‘°κ±΄λΆ νλ₯ λ‘μ¨ μμ©νλ€. λ°μ΄ν° κ΄μ°° ν 맀κ°λ³μμ νλ₯ μ λ² μ΄μ§μ μ 리둀 νμ΄λ΄λ©΄ λ€μκ³Ό κ°λ€.
\tag{1.43} p(\mathbf{w}\vert \mathcal{D}) = \dfrac{p(\mathcal{D}\vert \mathbf{w})p(\mathbf{w})}{p(\mathcal{D})}
μμ 1.43 μ°μΈ‘μ λ κ°λ₯λ ν¨μ(likelihood function)λΌκ³ νλ©° μ΄λ 맀κ°λ³μ λ²‘ν° μ ν¨μλ‘ λ³Ό μ μλ€. κ°λ₯λ ν¨μμ μλ―Έλ μ£Όμ΄μ§ μ λν΄ κ΄μΈ‘λ λ°μ΄ν° μ§ν©μ΄ μΌλ§λ 'μ΄λ κ² λνλ κ°λ₯μ±μ΄ μλκ°'λ₯Ό νννλ€. κ°λ₯λ ν¨μλ μ λν νλ₯ λΆν¬κ° μλκΈ° λλ¬Έμ μ΄λ₯Ό μ λΆν΄λ 1μ΄ λ νμκ° μλ€.
λΉλμ κ΄μ κ³Ό λ² μ΄μ§μ κ΄μ μ μ°¨μ΄λ κ°λ₯λ ν¨μμμ λνλλ€.
λΉλμ κ΄μ :
κ° κ³ μ λ 맀κ°λ³μμ΄κ³ , μ΄λ€ ννμ 'μΆμ μ(estimator)' λ°μ΄ν° μ λΆν¬λ₯Ό κ³ λ €νλ©΄μ μ€λ₯λ₯Ό μ€μ΄λ λ°©ν₯μΌλ‘ 맀κ°λ³μκ°μ΄ κ²°μ λλ€.
λ³΄ν΅ estimatorλ‘ μ΅λ κ°λ₯λ(maximum likelihood)λ₯Ό μ¬μ©νλ©°, κ° κ°λ₯λ ν¨μ λ₯Ό μ΅λννλ κ°μΌλ‘ μ νλλ€. λ³΄ν΅ μμ λ‘κ·Έ κ°λ₯λ(negative log likelihood)λ₯Ό μ€μ°¨ν¨μ(error function)λ‘ μ€μ νμ¬ μΆμ νλ€(λ¨μ‘° κ°μνκΈ° λλ¬Έμ κ°λ₯λμ μ΅λκ°μ μ°Ύλ κ²μ 곧 μ€μ°¨ν¨μμ μ΅μκ°μ μ°Ύλ κ²κ³Ό λμΌ).
μ€μ°¨λ₯Ό μΈ‘μ νλ λ°©λ²μ€ νλλ λΆνΈμ€νΈλ©(bootstrap)μΈλ°, λ°μ΄ν° μ§ν©μμ μ¬λ¬λ² μ€λ³΅ κ°λ₯νκ² μμλ‘ μΆμΆνμ¬ μ¬λ¬κ°μ λ°μ΄ν° μ§ν©μΌλ‘ λ§λ ν, μ¬λ¬λ² 맀κ°λ³μλ₯Ό μΆμ νμ¬ μΆμ κ°μ ν΅κ³μ μ νλλ₯Ό νλ¨νλ λ°©λ²μ΄λ€.
λ² μ΄μ§μ κ΄μ :
λ§μ κ²½μ° μ€ νλμ λ°μ΄ν° μ§ν© μ΄ κ΄μΈ‘λ κ²μΌ λΏμ΄λ©°, 맀κ°λ³μ μ λΆνμ€μ±μ μ λΆν¬λ‘ νννλ€.
μ₯μ μ€ νλλ μ¬μ μ§μμ μΆλ‘ κ³Όμ μ μμ°μ€λ½κ² ν¬ν¨μν¬ μ μλ€λ κ²μ΄λ€. μ΄λ κ³Όλν κ²°λ‘ μ΄ λμ€μ§ μκ² λ°©μ§νλ€. μ: λμ μ μΈλ² λμ‘λλ° λͺ¨λ μλ©΄μΈ κ²½μ° λΉλμ κ΄μ μμ νλ₯ μ 1μ΄λ€.
λͺ κ°μ§ λΉνμ€ νλλ μ¬μ νλ₯ μ μ νμ λ°λΌ κ²°λ‘ μ΄ λκΈ° λλ¬Έμ μΆλ‘ κ³Όμ μ μ£Όκ΄μ΄ ν¬ν¨λ μλ°μ μλ€. μ΄λ₯Ό 보μ νκΈ° μν΄ λ¬΄μ 보μ (noninformative) μ¬μ λΆν¬λ₯Ό μ¬μ©νλ κ²½μ°λ μλ€.
λ² μ΄μ§μ μ μ°¨λ₯Ό μμ ν νμ©νκΈ° μν΄μλ μ 체 맀κ°λ³μ 곡κ°μ λν marginalize(μ£Όλ³ν: ν© λλ μ λΆ)μ΄ νμνλ€. λͺ¬ν μΉ΄λ₯Όλ‘ λ°©λ²λ‘ κ³Ό μ»΄ν¨ν° μ°μ° μλ, λ©λͺ¨λ¦¬μ λ°μ μΌλ‘ μ¬μ©ν μ μκ² λμλ€.
2μ₯μμ λ€μν νλ₯ λΆν¬λ₯Ό μ΄ν΄λ³΄κΈ° μ μ μμ£Ό 보λ κ°μ°μμ λΆν¬(Gaussian distribution) λλ μ κ· λΆν¬(normal distribution)λ₯Ό λ¨Όμ μ΄ν΄λ³Έλ€.
λ¨μΌ μ€μ νλ₯ λ³μ μ λν΄μ κ°μ°μμ λΆν¬λ λ€μκ³Ό κ°λ€.
\tag{1.46} \mathcal{N}(x \vert \mu, \sigma^2) = \dfrac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} \exp \Big\{ - \dfrac{1}{2\sigma^2} (x - \mu)^2 \Big\}
λ νκ· (mean), λΆμ°(variance), λ νμ€νΈμ°¨(standard deviation)λΌκ³ νκ³ , λΆμ°μ μμΈ λ μ λ°λ(precision)λΌκ³ νλ€.
κ°μ°μμ λΆν¬λ νλ₯ λΆν¬μ νΉμ±μ λ§μ‘±νλ€.
κ°μ°μμ λΆν¬λ₯Ό λ°λ₯΄λ μμμ μ λν΄ ν¨μμ κΈ°λκ°μ ꡬνλ©΄ λ€μκ³Ό κ°λ€.
\tag{1.49} \Bbb{E}[x] = \int_{-\infty}^{\infty} \mathcal{N}(x \vert \mu, \sigma^2)x dx = \mu
λΆμ°μ λ€μκ³Ό κ°λ€.
μ΄μ μ°μ λ³μ Dμ°¨μ λ²‘ν° λ‘ νμ₯νλ€. μ λν κ°μ°μμ λΆν¬λ λ€μκ³Ό κ°λ€.
\tag{1.52} \mathcal{N}(\mathbf{x} \vert \mathbf{\mu}, \mathbf{\sigma}^2) = \dfrac{1}{(2\pi)^{D / 2}} \dfrac{1}{\vert \Sigma \vert^{1/2}} \exp \Big\{ -\dfrac{1}{2}(\mathbf{x} - \mathbf{\mu})^T \Sigma^{-1} (\mathbf{x} - \mathbf{\mu}) \Big\}
Dμ°¨μ λ²‘ν° λ νκ· κ°, νλ ¬ λ 곡λΆμ°μ΄λΌκ³ νλ€. λ μ νλ ¬μμ΄λ€.
λ€μ λ¨μΌ μ€μ νλ₯ λ³μλ‘ λμμ€λ©΄, κ΄μΈ‘ λ°μ΄ν° μμ κ° λ³μ λ νκ· κ° , λΆμ° λ₯Ό λ°λ₯΄λ κ°μ°μμ λΆν¬μμ λ 립μ μΌλ‘ μΆμΆνλ€κ³ κ°μ νλ€. μ΄λ₯Ό λ 립μ μ΄κ³ λμΌνκ² λΆν¬(independent and identically distributed - i.i.d) λμλ€κ³ νλ€. λ°λΌμ λ i.i.dμ΄κΈ° λλ¬Έμ κ° μ£Όμ΄μ‘μ λ μ‘°κ±΄λΆ νλ₯ μ λ€μκ³Ό κ°λ€.
\tag{1.53} p(X \vert \mu, \sigma^2) = \prod_{n=1}^{N} \mathcal{N}(x_n \vert \mu, \sigma^2)
μμ 1.53μ μ λν κ°λ₯λ ν¨μ(likelihood function)μ ν΄λΉνλ€. κ΄μΈ‘λ λ°μ΄ν° μ§ν©()μ λ°νμΌλ‘ 맀κ°λ³μ λ₯Ό κ²°μ μ§λ λ°©λ² μ€ νλλ κ°λ₯λ ν¨μλ₯Ό μ΅λννλ 맀κ°λ³μλ₯Ό μ°Ύλ κ²μ΄λ€. μ΄λ μλ³μ λ¨μ‘°ν¨μμΈ λ₯Ό μ·¨νμ¬ μ΅λκ°μ μ°Ύλ κ²κ³Ό λμΌνλ€.
\tag{1.54} \ln p(X\vert \mu, \sigma^2) = - \dfrac{1}{2\sigma^2} \sum_{n=1}^N(x_n - \mu)^2 - \dfrac{N}{2} \ln \sigma^2 - \dfrac{N}{2} \ln (2 \pi)
μ λν΄ μμ 1.54μ μ΅λκ°μ μ°ΎμΌλ©΄, κ΄μ°¬κ°λ€μ νκ· μΈ νλ³Έ νκ· (sample mean)κ³Ό νλ³Έ λΆμ°(sample variance)μ λ€μκ³Ό κ°λ€.
κ·Έλ¬λ μ΄λ κ² κ΅¬νλ κ²μ λΆν¬μ λΆμ°μ κ³Όμνκ°νκ² λλ€. μ μμλ€μ κΈ°λκ°μ ꡬνλ©΄ λ€μκ³Ό κ°λ€.
μ¦, μ€μ λΆμ°μ λ§νΌ μμμ Έ μλ€λ κ²μ μ μ μμΌλ©°, μ΄λ κ² μ°¨μ΄κ° λλ κ²μ νΈν₯(bias) μ΄λΌλ νμμ΄λ€. λ°λΌμ μ€μ λΆν¬μ λΆμ°()μ μΆμ νλ €λ©΄ λ€μκ³Ό κ°λ€.
\tag{1.59} \tilde{\sigma}^2 = \dfrac{N}{N-1} \sigma_{MLE}^2 = \dfrac{1}{N-1} \sum_{n=1}^N (x_n - \mu_{MLE})^2
μμ 1.59μμ μ μμλ κ²μ λ°μ΄ν° κ°μ()κ° ν΄ μλ‘ μ΅λ κ°λ₯λλ‘ κ΅¬ν ν΄(solution)μμ νΈν₯μΉλ μ μ μ€μ΄λ λ€. 볡μ‘ν λͺ¨λΈμΌ μλ‘ μ΅λ κ°λ₯λ λ°©λ²κ³Ό μ°κ΄λ νΈν₯ λ¬Έμ λ μ¬κ°ν΄μ§λ€. λν, μ΄ νΈν₯ λ¬Έμ λ κ³Όμ ν© λ¬Έμ μ κ·Όλ³Έμ μΈ μμΈμ ν΄λΉνλ€.