1.2 Probability Theory
Last updated
Was this helpful?
Last updated
Was this helpful?
ν¨ν΄μΈμμμ μ€μν κ°λ μ€ νλλ λΆνμ€μ±(uncertainty) μ΄λ€. νλ₯ μ΄λ‘ (Probability Theory) μ λΆνμ€μ±μ μ ννκ³ μμ μΈ λ°©μμΌλ‘ μΈ‘μ ν μ μλ μΌκ΄λ νλ μμν¬λ₯Ό μ 곡ν΄μ€λ€. λν κ²°μ μ΄λ‘ (Decision Theory) μ κ²°ν©νλ©΄ νμ¬ κ°μ§ μ 보λ΄μμ μ΅μ μ μμΈ‘μ λ΄λ¦΄μ μλλ‘ λμμ€λ€.
μ΄ μ±
μμλ λ€μ μμ λ‘ νλ₯ μ μκ°νλ €κ³ νλ€. νλ₯ λ³μ(Random Variable) λ‘ κ·Έλ¦Ό 1.2.1
μ λ°μ€λ₯Ό νννλ€. μ΄ νλ₯ λ³μ λ λΉ¨κ°μ()κ³Ό νλμ() λ κ°μ§ κ²½μ°κ° μλ€. λ°μ€ μμ μλ κ³ΌμΌμ μ’
λ₯ λν νλ₯ λ³μ λ‘ νννλ©°, μ¬κ³Ό()μ μ€λ μ§() λ κ°μ§ κ²½μ°κ° μλ€.
μμνκΈ° μ μ μ¬κ±΄μ λ°μ νμλ₯Ό μ΄ μννμλ‘ λλ κ°μ μ΄λ€ μ¬κ±΄(event)μ νλ₯ λ‘ μ μνλ€. λ°λΌμ λ€μ μ¬κ±΄λ€μ νλ₯ μ μ μ ν μ μλ€(λΉ¨κ°μ λ°μ€λ₯Ό μ νν νλ₯ μ 40%, νλμμ 60%λ€).
μ μ μμ λ°λ₯΄λ©΄, νλ₯ μ νμ 0κ³Ό 1μ¬μ΄μ κ°μ κ°μ§λ€. λν, μνΈ λ°°νμ (mutually exclusive)μ΄κ±°λ λͺ¨λ κ²°κ³Ό(outcomes)λ₯Ό ν¬ν¨νλ κ²½μ°, λͺ¨λ νλ₯ μ ν©μ 1μ΄ λμ΄μΌ νλ€.
μ¬κΈ°μ μ κΉ νλ₯ μμ ν©μ λ²μΉ(sum rule)κ³Ό κ³±μ λ²μΉ(product rule) μμλ³΄κ³ μ¨λ€.
κ·Έλ¦Ό 1.2.2
μμ , λ κ°μ νλ₯ λ³μκ° μλ€. λ κ°μ μ·¨ν μ μκ³ (λ κΉμ§), λ κ°μ μ·¨ν μ μλ€(λ κΉμ§). λν, μ μμ νλ³Έμ μΆμΆνλλ° μ΄ μλνμλ₯Ό μ΄λΌκ³ νλ€. κ·Έλ¦¬κ³ κ° κ°μ μ·¨νκ³ κ° κ°μ μ·¨νμ λμ μλ κ°―μλ₯Ό λΌκ³ νλ€. μ΄λ νλ₯ μ λΌκ³ νλ©°, μ κ²°ν© νλ₯ (joint probability) μ΄λΌκ³ νλ€.
μ€μ λ‘ μμλ‘ νμλ₯Ό μ§μ ν΄μ κ³μ°μ ν΄λ³΄μ.
νλ₯ λ³μ μ κ΄κ³μμ΄ μ μλ νμλ₯Ό , μ κ΄κ³μμ΄ μ μλ νμλ₯Ό λΌκ³ νλ©΄, λ€μκ³Ό κ°μ΄ ννν μ μλ€.
μ΄λ₯Ό ν΅ν΄ νλ₯ μ ν©μ λ²μΉ(sum rule)μ λμΆν΄λΌ μ μλ€. λ₯Ό μ£Όλ³ νλ₯ (marginal probability)μ΄λΌκ³ λ νλ€.
μΈ μ¬λ‘λ€μ κ³ λ €νμ¬ μ΄μ€μμ μΈ νλ₯ , μ¦ μ‘°κ±΄λΆ νλ₯ (conditional probability) λ₯Ό ꡬν μ μλ€. κ·Έλ¦Ό 1.2.2
μμ λΆν΄νλ©΄ μ μ£Όλ³ νλ₯ (marginal probability)μ€μμ κ° μ°¨μ§νλ λΉμ¨λ‘ ꡬν μ μλ€.
μμ 1.5, 1.7, 1.8μ κ²°ν©νλ©΄, νλ₯ μ κ³±μ λ²μΉ(product rule)μ λμΆν΄λΌ μ μλ€.
μμ κ°μ΄ ννμ λ무 볡μ‘νλ μ‘°κΈλ κ°λ¨νκ² νλ₯ λ³μμ λΆν¬λ₯Ό ννν λλ , νλ₯ λ³μκ° μ·¨ν μ μλ κ°μ λΆν¬μ ννν λλ λ‘ μ½μνλ€.
κ³±μ λμΉμ± μΌλ‘λΆν° μ‘°κ±΄λΆ νλ₯ μ κ΄κ³μμΌλ‘ λ² μ΄μ¦ μ 리(Bayes' theorem)μ λμΆν΄λΌ μ μλ€.
μ§κΈκΉμ§ λ°°μ΄ κ²μΌλ‘ κ·Έλ¦Ό 1.2.1
μ μμμμ μ΄λ€ κ³ΌμΌμ μ ννλλ° κ·Έ κ³ΌμΌμ΄ μ€λ μ§λΌλ©΄, μ΄ μ€λ μ§κ° μ΄λ€ μμμμ λμμμ§λ₯Ό μμΈ‘ ν΄λ³Ό μ μλ€.
κ° μμ(νλ₯ λ³μ )λ₯Ό μ ννμ λ κ°κ°μ κ³ΌμΌ(νλ₯ λ³μ )μ΄ λμ¬ νλ₯ μ λ€μκ³Ό κ°λ€.
νλ₯ μ ν©μ λ²μΉκ³Ό κ³±μ λ²μΉμ μ μ©νμ¬ μ€λ μ§λ₯Ό κ³ λ₯΄λ μ 체 νλ₯ μ κ³μ°ν μ μλ€.
λ² μ΄μ¦ μ 리λ₯Ό νμ©ν΄ ꡬνκ³ μΆμ λ¬Έμ μ νλ₯ μ ꡬνλ€.
μ΄λ λ€μκ³Ό κ°μ΄ ν΄μν μ μλ€. μ΄λ€ λ°μ€λ₯Ό μ ννλ€λ μ¬κ±΄μ κ°λ₯΄ν€λ νλ₯ λ³μ μ νλ₯ ()μ μ¬μ νλ₯ (prior probability)μ΄λΌκ³ νλ€. κ·Έ μ΄μ λ κ΄μ¬μλ μ¬νμΈ μ΄λ€ κ³ΌμΌμ΄ μ ν λμλμ§λ₯Ό κ΄μ°°νκΈ° 'μ 'μ νλ₯ μ΄κΈ° λλ¬Έμ΄λ€. μ νν κ³ΌμΌμ΄ μ€λ μ§λΌλ κ²μ μκ² λλ€λ©΄ λ² μ΄μ¦ μ 리λ₯Ό νμ©νμ¬ λ₯Ό ꡬν μ μλ€. μ΄λ₯Ό μ¬ν νλ₯ (posterior probability)λΌκ³ νλ©°, κ·Έ μ΄μ λ μ¬κ±΄ λ₯Ό κ΄μΈ‘ν 'ν'μ νλ₯ μ΄κΈ° λλ¬Έμ΄λ€.
λ§μ§λ§μΌλ‘ "λ νλ₯ λ³μκ° λ 립μ (independent)μ΄λ€"λΌκ³ νλ κ²μ λ νλ₯ λ³μ νλ₯ μ κ³±μ΄ κ²°ν©νλ₯ κ³Ό κ°μ κ²½μ°λ₯Ό λ§νλ€.
μ§κΈκΉμ§ μ΄μ°(descrete) μ¬κ±΄λ€μ νλ₯ μ λ€λ€λλ°, μ°μμ μΈ(continious) λ³μμ νλ₯ μ μμλ³Έλ€. μ€μ νλ₯ λ³μ κ° κ΅¬κ°μ κ°μ κ°μ§κ³ νλ₯ μ΄ λΌλ©΄, λ μ νλ₯ λ°λ(probability density)λΌκ³ νλ€. μ΄λ κ° κ΅¬κ° μ¬μ΄μ κ°μ κ°μ§ νλ₯ μ λ€μκ³Ό κ°λ€.
μΆκ°λ‘ νλ₯ μ μ μμ μνμ¬ λ€μ 쑰건μ λ§μ‘±ν΄μΌνλ€.
νλ₯ λ°λμ μ΅λκ°μ μ΄λ€ νλ₯ λ³μλ₯Ό μ ννλμ§μ λ°λΌμ λ¬λΌμ§λ€. μλ₯Ό λ€μ΄ μ λ³νμ νκ² λλ©΄, ν¨μ λ λ‘ λ°λλ€. μ λν νλ₯ λ°λ ν¨μ μ μ λν νλ₯ λ°λ ν¨μ λ μλ‘ λ€λ₯Έ νλ₯ λ°λλ₯Ό κ°μ§λ€. λ²μμ μνλ κ΄μ°°κ°μ λ‘ λ³νλλ€. μ΄λ λΉμ ν λ³μ λ³νμ μΌμ½λΉμ μΈμ(Jacobian Factor)κ° λ°λΌ λΆκΈ° λλ¬Έμ΄λ€.
νλ₯ λ³μ κ° λ²μμ μν νλ₯ μ λμ λΆν¬ ν¨μ(cumulative distribution function) λΌκ³ νλ€.
μ¬κΈ°μ λ€.
κ·Έλ¦Ό 1.2.4
μμ νλ₯ λ°λ ν¨μ(λΉ¨κ°)μ λμ λΆν¬ ν¨μ(νλ)μ λͺ¨μμ νμΈ ν μ μλ€. μ£Όμ ν μ μ νλ₯ λ°λλ μΌμ λ²μ λ΄μ μ μλλ ν¨μλ€.
λ²‘ν° λ‘ μ£Όμ΄μ§ λ€λ³μμΈ κ²½μ°, λκ°μ΄ νλ₯ λ°λ λ₯Ό μ μν μ μλ€. λ¨λ³μμ κ°μ΄ λ€μ 쑰건μ λ§μ‘±ν΄μΌνλ€.
λ§μ½ νλ₯ λ³μ κ° μ΄μ°νλ₯ λ³μμΈ κ²½μ° λ₯Ό νλ₯ μ§λ ν¨μ(probability mass function)μ΄λΌκ³ λ νλ€.
λν, νλ₯ λ°λ ν¨μμ ν©μ λ²μΉ, κ³±μ λ²μΉ, λ² μ΄μ¦ μ 리λ₯Ό νμ©ν μ μλ€.
μ΄λ€ νλ₯ λΆν¬ νμ νλ₯ ν¨μ μ νκ· μ κΈ°λκ°(expectation)μ΄λΌκ³ νλ©°, λΌκ³ νκΈ°νλ€.
νλ₯ μ§λ ν¨μμΈ κ²½μ°:
νλ₯ λ°λ ν¨μμΈ κ²½μ°:
λ§μ½ νλ₯ λΆν¬μμ μ νν κ°μ μνμ μΆμΆνκ±°λΌλ©΄, κ° ν¬μΈνΈλ€μ μ νν ν©μ°μΌλ‘ κΈ°λκ°μ κ·Όμ¬(approximate)ν μ μλ€(μ°¨ν 11μ₯μμ νλ³Έ μΆμΆ λ°©λ²λ‘ μμ νμ©νλ€).
λ€λ³μ ν¨μμ κΈ°λ±κ°μ ꡬν κ²½μ°μλ μ΄λ€ λ³μμ λν΄ νκ· μ λ΄λμ§λ₯Ό μ§μ νμ¬ κ³μ°ν μ μλ€. μμλ‘ λ ν¨μ μ νκ· κ°μ μ λΆν¬μ λν΄ κ΅¬νλΌλ μλ―Έμ΄λ©°, μ΅μ’ μ μΌλ‘ μ λν ν¨μκ° λλ€.
λν μ‘°κ±΄λΆ νλ₯ μ²λΌ μ‘°κ±΄λΆ κΈ°λκ°(conditional expectation)λ ꡬν μ μλ€.
λΆμ°(variance)μ λ€μκ³Ό κ°μ΄ μ μλλ€.
곡λΆμ°(covariance)μ λ€μκ³Ό κ°μ΄ μ μλλ€.
λ€λ³μμ κ²½μ° λ€μκ³Ό κ°λ€.
νλ₯ μλ λ κ°μ§ κ΄μ μ΄ μλ€.
λΉλμ (frequentist) νΉμ κ³ μ μ (classical) κ΄μ : νλ₯ μ μμμ λ°λ³΅ κ°λ₯ν μ¬κ±΄μ λΉλμ
λ² μ΄μ§μ(Bayesian) κ΄μ : λΆνμ€μ±μ μ λννκ³ μ¦κ±°λ₯Ό ν΅ν΄ λΆνμ€μ±μ μ€μ¬ λκ°λ κ², λΆνμ€μ±μ λνλ΄λ λκ΅¬λ‘ νλ₯ μ μ¬μ©.
1.1μ μ μμ μμ λ§€κ°λ³μ λ₯Ό λ² μ΄μ§μ κ΄μ μ μ¬μ©νλ©΄, νλ₯ λ‘ μ λ€μν μ₯μΉλ₯Ό νμ©νμ¬ λͺ¨λΈ λ§€κ°λ³μμ λΆνμ€μ±μ μ€λͺ ν μ μλ€. 첫 λ°μ΄ν°λ₯Ό κ΄μ°°νκΈ° μ μ μ λν κ°μ μ μ¬μ νλ₯ λΆν¬ λ‘ ννν μ μλ€. κ·Έλ¦¬κ³ κ΄μΈ‘λ λ°μ΄ν° μ μ‘°κ±΄λΆ νλ₯ λ‘μ¨ μμ©νλ€. λ°μ΄ν° κ΄μ°° ν λ§€κ°λ³μμ νλ₯ μ λ² μ΄μ§μ μ 리둀 νμ΄λ΄λ©΄ λ€μκ³Ό κ°λ€.
μμ 1.43 μ°μΈ‘μ λ κ°λ₯λ ν¨μ(likelihood function)λΌκ³ νλ©° μ΄λ λ§€κ°λ³μ λ²‘ν° μ ν¨μλ‘ λ³Ό μ μλ€. κ°λ₯λ ν¨μμ μλ―Έλ μ£Όμ΄μ§ μ λν΄ κ΄μΈ‘λ λ°μ΄ν° μ§ν©μ΄ μΌλ§λ 'μ΄λ κ² λνλ κ°λ₯μ±μ΄ μλκ°'λ₯Ό νννλ€. κ°λ₯λ ν¨μλ μ λν νλ₯ λΆν¬κ° μλκΈ° λλ¬Έμ μ΄λ₯Ό μ λΆν΄λ 1μ΄ λ νμκ° μλ€.
λΉλμ κ΄μ κ³Ό λ² μ΄μ§μ κ΄μ μ μ°¨μ΄λ κ°λ₯λ ν¨μμμ λνλλ€.
λΉλμ κ΄μ :
κ° κ³ μ λ λ§€κ°λ³μμ΄κ³ , μ΄λ€ ννμ 'μΆμ μ(estimator)' λ°μ΄ν° μ λΆν¬λ₯Ό κ³ λ €νλ©΄μ μ€λ₯λ₯Ό μ€μ΄λ λ°©ν₯μΌλ‘ λ§€κ°λ³μκ°μ΄ κ²°μ λλ€.
λ³΄ν΅ estimatorλ‘ μ΅λ κ°λ₯λ(maximum likelihood)λ₯Ό μ¬μ©νλ©°, κ° κ°λ₯λ ν¨μ λ₯Ό μ΅λννλ κ°μΌλ‘ μ νλλ€. λ³΄ν΅ μμ λ‘κ·Έ κ°λ₯λ(negative log likelihood)λ₯Ό μ€μ°¨ν¨μ(error function)λ‘ μ€μ νμ¬ μΆμ νλ€(λ¨μ‘° κ°μνκΈ° λλ¬Έμ κ°λ₯λμ μ΅λκ°μ μ°Ύλ κ²μ κ³§ μ€μ°¨ν¨μμ μ΅μκ°μ μ°Ύλ κ²κ³Ό λμΌ).
μ€μ°¨λ₯Ό μΈ‘μ νλ λ°©λ²μ€ νλλ λΆνΈμ€νΈλ©(bootstrap)μΈλ°, λ°μ΄ν° μ§ν©μμ μ¬λ¬λ² μ€λ³΅ κ°λ₯νκ² μμλ‘ μΆμΆνμ¬ μ¬λ¬κ°μ λ°μ΄ν° μ§ν©μΌλ‘ λ§λ ν, μ¬λ¬λ² λ§€κ°λ³μλ₯Ό μΆμ νμ¬ μΆμ κ°μ ν΅κ³μ μ νλλ₯Ό νλ¨νλ λ°©λ²μ΄λ€.
λ² μ΄μ§μ κ΄μ :
λ§μ κ²½μ° μ€ νλμ λ°μ΄ν° μ§ν© μ΄ κ΄μΈ‘λ κ²μΌ λΏμ΄λ©°, λ§€κ°λ³μ μ λΆνμ€μ±μ μ λΆν¬λ‘ νννλ€.
μ₯μ μ€ νλλ μ¬μ μ§μμ μΆλ‘ κ³Όμ μ μμ°μ€λ½κ² ν¬ν¨μν¬ μ μλ€λ κ²μ΄λ€. μ΄λ κ³Όλν κ²°λ‘ μ΄ λμ€μ§ μκ² λ°©μ§νλ€. μ: λμ μ μΈλ² λμ‘λλ° λͺ¨λ μλ©΄μΈ κ²½μ° λΉλμ κ΄μ μμ νλ₯ μ 1μ΄λ€.
λͺ κ°μ§ λΉνμ€ νλλ μ¬μ νλ₯ μ μ νμ λ°λΌ κ²°λ‘ μ΄ λκΈ° λλ¬Έμ μΆλ‘ κ³Όμ μ μ£Όκ΄μ΄ ν¬ν¨λ μλ°μ μλ€. μ΄λ₯Ό 보μ νκΈ° μν΄ λ¬΄μ 보μ (noninformative) μ¬μ λΆν¬λ₯Ό μ¬μ©νλ κ²½μ°λ μλ€.
λ² μ΄μ§μ μ μ°¨λ₯Ό μμ ν νμ©νκΈ° μν΄μλ μ 체 λ§€κ°λ³μ 곡κ°μ λν marginalize(μ£Όλ³ν: ν© λλ μ λΆ)μ΄ νμνλ€. λͺ¬ν μΉ΄λ₯Όλ‘ λ°©λ²λ‘ κ³Ό μ»΄ν¨ν° μ°μ° μλ, λ©λͺ¨λ¦¬μ λ°μ μΌλ‘ μ¬μ©ν μ μκ² λμλ€.
2μ₯μμ λ€μν νλ₯ λΆν¬λ₯Ό μ΄ν΄λ³΄κΈ° μ μ μμ£Ό 보λ κ°μ°μμ λΆν¬(Gaussian distribution) λλ μ κ· λΆν¬(normal distribution)λ₯Ό λ¨Όμ μ΄ν΄λ³Έλ€.
λ¨μΌ μ€μ νλ₯ λ³μ μ λν΄μ κ°μ°μμ λΆν¬λ λ€μκ³Ό κ°λ€.
λ νκ· (mean), λΆμ°(variance), λ νμ€νΈμ°¨(standard deviation)λΌκ³ νκ³ , λΆμ°μ μμΈ λ μ λ°λ(precision)λΌκ³ νλ€.
κ°μ°μμ λΆν¬λ νλ₯ λΆν¬μ νΉμ±μ λ§μ‘±νλ€.
κ°μ°μμ λΆν¬λ₯Ό λ°λ₯΄λ μμμ μ λν΄ ν¨μμ κΈ°λκ°μ ꡬνλ©΄ λ€μκ³Ό κ°λ€.
λΆμ°μ λ€μκ³Ό κ°λ€.
μ΄μ μ°μ λ³μ Dμ°¨μ λ²‘ν° λ‘ νμ₯νλ€. μ λν κ°μ°μμ λΆν¬λ λ€μκ³Ό κ°λ€.
Dμ°¨μ λ²‘ν° λ νκ· κ°, νλ ¬ λ 곡λΆμ°μ΄λΌκ³ νλ€. λ μ νλ ¬μμ΄λ€.
λ€μ λ¨μΌ μ€μ νλ₯ λ³μλ‘ λμμ€λ©΄, κ΄μΈ‘ λ°μ΄ν° μμ κ° λ³μ λ νκ· κ° , λΆμ° λ₯Ό λ°λ₯΄λ κ°μ°μμ λΆν¬μμ λ 립μ μΌλ‘ μΆμΆνλ€κ³ κ°μ νλ€. μ΄λ₯Ό λ 립μ μ΄κ³ λμΌνκ² λΆν¬(independent and identically distributed - i.i.d) λμλ€κ³ νλ€. λ°λΌμ λ i.i.dμ΄κΈ° λλ¬Έμ κ° μ£Όμ΄μ‘μ λ μ‘°κ±΄λΆ νλ₯ μ λ€μκ³Ό κ°λ€.
μμ 1.53μ μ λν κ°λ₯λ ν¨μ(likelihood function)μ ν΄λΉνλ€. κ΄μΈ‘λ λ°μ΄ν° μ§ν©()μ λ°νμΌλ‘ λ§€κ°λ³μ λ₯Ό κ²°μ μ§λ λ°©λ² μ€ νλλ κ°λ₯λ ν¨μλ₯Ό μ΅λννλ λ§€κ°λ³μλ₯Ό μ°Ύλ κ²μ΄λ€. μ΄λ μλ³μ λ¨μ‘°ν¨μμΈ λ₯Ό μ·¨νμ¬ μ΅λκ°μ μ°Ύλ κ²κ³Ό λμΌνλ€.
μ λν΄ μμ 1.54μ μ΅λκ°μ μ°ΎμΌλ©΄, κ΄μ°¬κ°λ€μ νκ· μΈ νλ³Έ νκ· (sample mean)κ³Ό νλ³Έ λΆμ°(sample variance)μ λ€μκ³Ό κ°λ€.
κ·Έλ¬λ μ΄λ κ² κ΅¬νλ κ²μ λΆν¬μ λΆμ°μ κ³Όμνκ°νκ² λλ€. μ μμλ€μ κΈ°λκ°μ ꡬνλ©΄ λ€μκ³Ό κ°λ€.
μ¦, μ€μ λΆμ°μ λ§νΌ μμμ Έ μλ€λ κ²μ μ μ μμΌλ©°, μ΄λ κ² μ°¨μ΄κ° λλ κ²μ νΈν₯(bias) μ΄λΌλ νμμ΄λ€. λ°λΌμ μ€μ λΆν¬μ λΆμ°()μ μΆμ νλ €λ©΄ λ€μκ³Ό κ°λ€.
μμ 1.59μμ μ μμλ κ²μ λ°μ΄ν° κ°μ()κ° ν΄ μλ‘ μ΅λ κ°λ₯λλ‘ κ΅¬ν ν΄(solution)μμ νΈν₯μΉλ μ μ μ€μ΄λ λ€. 볡μ‘ν λͺ¨λΈμΌ μλ‘ μ΅λ κ°λ₯λ λ°©λ²κ³Ό μ°κ΄λ νΈν₯ λ¬Έμ λ μ¬κ°ν΄μ§λ€. λν, μ΄ νΈν₯ λ¬Έμ λ κ³Όμ ν© λ¬Έμ μ κ·Όλ³Έμ μΈ μμΈμ ν΄λΉνλ€.
κ΄λ ¨ λ΄μ© μ°Έκ³ :