1.2 Probability Theory
ํจํด์ธ์์์ ์ค์ํ ๊ฐ๋ ์ค ํ๋๋ ๋ถํ์ค์ฑ(uncertainty) ์ด๋ค. ํ๋ฅ ์ด๋ก (Probability Theory) ์ ๋ถํ์ค์ฑ์ ์ ํํ๊ณ ์์ ์ธ ๋ฐฉ์์ผ๋ก ์ธก์ ํ ์ ์๋ ์ผ๊ด๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํด์ค๋ค. ๋ํ ๊ฒฐ์ ์ด๋ก (Decision Theory) ์ ๊ฒฐํฉํ๋ฉด ํ์ฌ ๊ฐ์ง ์ ๋ณด๋ด์์ ์ต์ ์ ์์ธก์ ๋ด๋ฆด์ ์๋๋ก ๋์์ค๋ค.
์ด ์ฑ
์์๋ ๋ค์ ์์ ๋ก ํ๋ฅ ์ ์๊ฐํ๋ ค๊ณ ํ๋ค. ํ๋ฅ ๋ณ์(Random Variable) ๋ก ๊ทธ๋ฆผ 1.2.1์ ๋ฐ์ค๋ฅผ ํํํ๋ค. ์ด ํ๋ฅ ๋ณ์ ๋ ๋นจ๊ฐ์()๊ณผ ํ๋์() ๋ ๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๋ค. ๋ฐ์ค ์์ ์๋ ๊ณผ์ผ์ ์ข
๋ฅ ๋ํ ํ๋ฅ ๋ณ์ ๋ก ํํํ๋ฉฐ, ์ฌ๊ณผ()์ ์ค๋ ์ง() ๋ ๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๋ค.
์์ํ๊ธฐ ์ ์ ์ฌ๊ฑด์ ๋ฐ์ ํ์๋ฅผ ์ด ์ํํ์๋ก ๋๋ ๊ฐ์ ์ด๋ค ์ฌ๊ฑด(event)์ ํ๋ฅ ๋ก ์ ์ํ๋ค. ๋ฐ๋ผ์ ๋ค์ ์ฌ๊ฑด๋ค์ ํ๋ฅ ์ ์ ์ ํ ์ ์๋ค(๋นจ๊ฐ์ ๋ฐ์ค๋ฅผ ์ ํํ ํ๋ฅ ์ 40%, ํ๋์์ 60%๋ค).
์ ์ ์์ ๋ฐ๋ฅด๋ฉด, ํ๋ฅ ์ ํญ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ค. ๋ํ, ์ํธ ๋ฐฐํ์ (mutually exclusive)์ด๊ฑฐ๋ ๋ชจ๋ ๊ฒฐ๊ณผ(outcomes)๋ฅผ ํฌํจํ๋ ๊ฒฝ์ฐ, ๋ชจ๋ ํ๋ฅ ์ ํฉ์ 1์ด ๋์ด์ผ ํ๋ค.
์ฌ๊ธฐ์ ์ ๊น ํ๋ฅ ์์ ํฉ์ ๋ฒ์น(sum rule)๊ณผ ๊ณฑ์ ๋ฒ์น(product rule) ์์๋ณด๊ณ ์จ๋ค.
๊ทธ๋ฆผ 1.2.2์์ , ๋ ๊ฐ์ ํ๋ฅ ๋ณ์๊ฐ ์๋ค. ๋ ๊ฐ์ ์ทจํ ์ ์๊ณ (๋ ๊น์ง), ๋ ๊ฐ์ ์ทจํ ์ ์๋ค(๋ ๊น์ง). ๋ํ, ์ ์์ ํ๋ณธ์ ์ถ์ถํ๋๋ฐ ์ด ์๋ํ์๋ฅผ ์ด๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๊ฐ์ ์ทจํ๊ณ ๊ฐ ๊ฐ์ ์ทจํ์ ๋์ ์๋ ๊ฐฏ์๋ฅผ ๋ผ๊ณ ํ๋ค. ์ด๋ ํ๋ฅ ์ ๋ผ๊ณ ํ๋ฉฐ, ์ ๊ฒฐํฉ ํ๋ฅ (joint probability) ์ด๋ผ๊ณ ํ๋ค.
์ค์ ๋ก ์์๋ก ํ์๋ฅผ ์ง์ ํด์ ๊ณ์ฐ์ ํด๋ณด์.
np.random.seed(777)
A = np.random.randint(1, 10, size=(3, 5))
fig, ax = plt.subplots(1, 1)
ax.matshow(table, cmap="coolwarm")
for (i, j), z in np.ndenumerate(A):
ax.text(j, i, f"{z}", ha="center", va="center")
ax.set_xticklabels(np.arange(0, 6))
ax.set_yticklabels(np.arange(0, 4))
ax.set_xlabel("$X$", fontsize=20)
ax.set_ylabel("$Y$", fontsize=20).set_rotation(0)
plt.show()def joint_probability(i, j, A):
"""
i: index of x element
j: index of y element
"""
return A[j, i] / A.sum()
# x_1, y_2 --> 5/83
p_x1y2 = joint_probability(0, 1, A)
print(round(p_x1y2, 4))
# 0.0602ํ๋ฅ ๋ณ์ ์ ๊ด๊ณ์์ด ์ ์๋ ํ์๋ฅผ , ์ ๊ด๊ณ์์ด ์ ์๋ ํ์๋ฅผ ๋ผ๊ณ ํ๋ฉด, ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
์ด๋ฅผ ํตํด ํ๋ฅ ์ ํฉ์ ๋ฒ์น(sum rule)์ ๋์ถํด๋ผ ์ ์๋ค. ๋ฅผ ์ฃผ๋ณ ํ๋ฅ (marginal probability)์ด๋ผ๊ณ ๋ ํ๋ค.
def marginal_probability(k, A, axis=0):
"""
k: either index of x element or index of y element
"""
A_sum = A.sum(axis=axis)
return A_sum[k] / A_sum.sum()
# x_1 --> (8 + 5 + 1) / 83
p_x1 = marginal_probability(0, A, axis=0)
print(round(p_x1, 4))
# 0.1687์ธ ์ฌ๋ก๋ค์ ๊ณ ๋ คํ์ฌ ์ด์ค์์ ์ธ ํ๋ฅ , ์ฆ ์กฐ๊ฑด๋ถ ํ๋ฅ (conditional probability) ๋ฅผ ๊ตฌํ ์ ์๋ค. ๊ทธ๋ฆผ 1.2.2์์ ๋ถํดํ๋ฉด ์ ์ฃผ๋ณ ํ๋ฅ (marginal probability)์ค์์ ๊ฐ ์ฐจ์งํ๋ ๋น์จ๋ก ๊ตฌํ ์ ์๋ค.
def conditional_probability(i, j, A, axis=0):
"""
i: index of x element, set axis=0 if it is a condition
j: index of y element, set axis=1 if it is a condition
"""
A_sum = A.sum(axis=axis)
sel_dim = i if axis == 0 else j
return A[j, i] / A_sum[sel_dim]
# y_2 | x_1 --> 5 / (8 + 5 + 1)
p_y2_x1 = conditional_probability(0, 1, A, axis=0)
print(round(p_y2_x1, 4))์์ 1.5, 1.7, 1.8์ ๊ฒฐํฉํ๋ฉด, ํ๋ฅ ์ ๊ณฑ์ ๋ฒ์น(product rule)์ ๋์ถํด๋ผ ์ ์๋ค.
์์ ๊ฐ์ด ํํ์ ๋๋ฌด ๋ณต์กํ๋ ์กฐ๊ธ๋ ๊ฐ๋จํ๊ฒ ํ๋ฅ ๋ณ์์ ๋ถํฌ๋ฅผ ํํํ ๋๋ , ํ๋ฅ ๋ณ์๊ฐ ์ทจํ ์ ์๋ ๊ฐ์ ๋ถํฌ์ ํํํ ๋๋ ๋ก ์ฝ์ํ๋ค.
๊ณฑ์ ๋์นญ์ฑ ์ผ๋ก๋ถํฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ด๊ณ์์ผ๋ก ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' theorem)์ ๋์ถํด๋ผ ์ ์๋ค.
์ง๊ธ๊น์ง ๋ฐฐ์ด ๊ฒ์ผ๋ก ๊ทธ๋ฆผ 1.2.1์ ์์์์ ์ด๋ค ๊ณผ์ผ์ ์ ํํ๋๋ฐ ๊ทธ ๊ณผ์ผ์ด ์ค๋ ์ง๋ผ๋ฉด, ์ด ์ค๋ ์ง๊ฐ ์ด๋ค ์์์์ ๋์์์ง๋ฅผ ์์ธก ํด๋ณผ ์ ์๋ค.
๊ฐ ์์(ํ๋ฅ ๋ณ์ )๋ฅผ ์ ํํ์ ๋ ๊ฐ๊ฐ์ ๊ณผ์ผ(ํ๋ฅ ๋ณ์ )์ด ๋์ฌ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
ํ๋ฅ ์ ํฉ์ ๋ฒ์น๊ณผ ๊ณฑ์ ๋ฒ์น์ ์ ์ฉํ์ฌ ์ค๋ ์ง๋ฅผ ๊ณ ๋ฅด๋ ์ ์ฒด ํ๋ฅ ์ ๊ณ์ฐํ ์ ์๋ค.
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํ์ฉํด ๊ตฌํ๊ณ ์ถ์ ๋ฌธ์ ์ ํ๋ฅ ์ ๊ตฌํ๋ค.
์ด๋ ๋ค์๊ณผ ๊ฐ์ด ํด์ํ ์ ์๋ค. ์ด๋ค ๋ฐ์ค๋ฅผ ์ ํํ๋ค๋ ์ฌ๊ฑด์ ๊ฐ๋ฅดํค๋ ํ๋ฅ ๋ณ์ ์ ํ๋ฅ ()์ ์ฌ์ ํ๋ฅ (prior probability)์ด๋ผ๊ณ ํ๋ค. ๊ทธ ์ด์ ๋ ๊ด์ฌ์๋ ์ฌํญ์ธ ์ด๋ค ๊ณผ์ผ์ด ์ ํ ๋์๋์ง๋ฅผ ๊ด์ฐฐํ๊ธฐ '์ '์ ํ๋ฅ ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ ํํ ๊ณผ์ผ์ด ์ค๋ ์ง๋ผ๋ ๊ฒ์ ์๊ฒ ๋๋ค๋ฉด ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ๋ฅผ ๊ตฌํ ์ ์๋ค. ์ด๋ฅผ ์ฌํ ํ๋ฅ (posterior probability)๋ผ๊ณ ํ๋ฉฐ, ๊ทธ ์ด์ ๋ ์ฌ๊ฑด ๋ฅผ ๊ด์ธกํ 'ํ'์ ํ๋ฅ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
๋ง์ง๋ง์ผ๋ก "๋ ํ๋ฅ ๋ณ์๊ฐ ๋ ๋ฆฝ์ (independent)์ด๋ค"๋ผ๊ณ ํ๋ ๊ฒ์ ๋ ํ๋ฅ ๋ณ์ ํ๋ฅ ์ ๊ณฑ์ด ๊ฒฐํฉํ๋ฅ ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค.
1.2.1 Probability densities(ํ๋ฅ ๋ฐ๋)
์ง๊ธ๊น์ง ์ด์ฐ(descrete) ์ฌ๊ฑด๋ค์ ํ๋ฅ ์ ๋ค๋ค๋๋ฐ, ์ฐ์์ ์ธ(continious) ๋ณ์์ ํ๋ฅ ์ ์์๋ณธ๋ค. ์ค์ ํ๋ฅ ๋ณ์ ๊ฐ ๊ตฌ๊ฐ์ ๊ฐ์ ๊ฐ์ง๊ณ ํ๋ฅ ์ด ๋ผ๋ฉด, ๋ ์ ํ๋ฅ ๋ฐ๋(probability density)๋ผ๊ณ ํ๋ค. ์ด๋ ๊ฐ ๊ตฌ๊ฐ ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ถ๊ฐ๋ก ํ๋ฅ ์ ์ ์์ ์ํ์ฌ ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํด์ผํ๋ค.
ํ๋ฅ ๋ฐ๋์ ์ต๋๊ฐ์ ์ด๋ค ํ๋ฅ ๋ณ์๋ฅผ ์ ํํ๋์ง์ ๋ฐ๋ผ์ ๋ฌ๋ผ์ง๋ค. ์๋ฅผ ๋ค์ด ์ ๋ณํ์ ํ๊ฒ ๋๋ฉด, ํจ์ ๋ ๋ก ๋ฐ๋๋ค. ์ ๋ํ ํ๋ฅ ๋ฐ๋ ํจ์ ์ ์ ๋ํ ํ๋ฅ ๋ฐ๋ ํจ์ ๋ ์๋ก ๋ค๋ฅธ ํ๋ฅ ๋ฐ๋๋ฅผ ๊ฐ์ง๋ค. ๋ฒ์์ ์ํ๋ ๊ด์ฐฐ๊ฐ์ ๋ก ๋ณํ๋๋ค. ์ด๋ ๋น์ ํ ๋ณ์ ๋ณํ์ ์ผ์ฝ๋น์ ์ธ์(Jacobian Factor)๊ฐ ๋ฐ๋ผ ๋ถ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ด๋ จ ๋ด์ฉ ์ฐธ๊ณ : ๋งํฌ
ํ๋ฅ ๋ณ์ ๊ฐ ๋ฒ์์ ์ํ ํ๋ฅ ์ ๋์ ๋ถํฌ ํจ์(cumulative distribution function) ๋ผ๊ณ ํ๋ค.
์ฌ๊ธฐ์ ๋ค.
๊ทธ๋ฆผ 1.2.4 ์์ ํ๋ฅ ๋ฐ๋ ํจ์(๋นจ๊ฐ)์ ๋์ ๋ถํฌ ํจ์(ํ๋)์ ๋ชจ์์ ํ์ธ ํ ์ ์๋ค. ์ฃผ์ ํ ์ ์ ํ๋ฅ ๋ฐ๋๋ ์ผ์ ๋ฒ์ ๋ด์ ์ ์๋๋ ํจ์๋ค.
๋ฒกํฐ ๋ก ์ฃผ์ด์ง ๋ค๋ณ์์ธ ๊ฒฝ์ฐ, ๋๊ฐ์ด ํ๋ฅ ๋ฐ๋ ๋ฅผ ์ ์ํ ์ ์๋ค. ๋จ๋ณ์์ ๊ฐ์ด ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํด์ผํ๋ค.
๋ง์ฝ ํ๋ฅ ๋ณ์ ๊ฐ ์ด์ฐํ๋ฅ ๋ณ์์ธ ๊ฒฝ์ฐ ๋ฅผ ํ๋ฅ ์ง๋ ํจ์(probability mass function)์ด๋ผ๊ณ ๋ ํ๋ค.
๋ํ, ํ๋ฅ ๋ฐ๋ ํจ์์ ํฉ์ ๋ฒ์น, ๊ณฑ์ ๋ฒ์น, ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํ์ฉํ ์ ์๋ค.
1.2.2 Expectations and covariances
์ด๋ค ํ๋ฅ ๋ถํฌ ํ์ ํ๋ฅ ํจ์ ์ ํ๊ท ์ ๊ธฐ๋๊ฐ(expectation)์ด๋ผ๊ณ ํ๋ฉฐ, ๋ผ๊ณ ํ๊ธฐํ๋ค.
ํ๋ฅ ์ง๋ ํจ์์ธ ๊ฒฝ์ฐ:
ํ๋ฅ ๋ฐ๋ ํจ์์ธ ๊ฒฝ์ฐ:
๋ง์ฝ ํ๋ฅ ๋ถํฌ์์ ์ ํํ ๊ฐ์ ์ํ์ ์ถ์ถํ๊ฑฐ๋ผ๋ฉด, ๊ฐ ํฌ์ธํธ๋ค์ ์ ํํ ํฉ์ฐ์ผ๋ก ๊ธฐ๋๊ฐ์ ๊ทผ์ฌ(approximate)ํ ์ ์๋ค(์ฐจํ 11์ฅ์์ ํ๋ณธ ์ถ์ถ ๋ฐฉ๋ฒ๋ก ์์ ํ์ฉํ๋ค).
๋ค๋ณ์ ํจ์์ ๊ธฐ๋ฑ๊ฐ์ ๊ตฌํ ๊ฒฝ์ฐ์๋ ์ด๋ค ๋ณ์์ ๋ํด ํ๊ท ์ ๋ด๋์ง๋ฅผ ์ง์ ํ์ฌ ๊ณ์ฐํ ์ ์๋ค. ์์๋ก ๋ ํจ์ ์ ํ๊ท ๊ฐ์ ์ ๋ถํฌ์ ๋ํด ๊ตฌํ๋ผ๋ ์๋ฏธ์ด๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์ ๋ํ ํจ์๊ฐ ๋๋ค.
๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฒ๋ผ ์กฐ๊ฑด๋ถ ๊ธฐ๋๊ฐ(conditional expectation)๋ ๊ตฌํ ์ ์๋ค.
๋ถ์ฐ(variance)์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
๊ณต๋ถ์ฐ(covariance)์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
๋ค๋ณ์์ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ๋ค.
1.2.3 Bayesian probabilities
ํ๋ฅ ์๋ ๋ ๊ฐ์ง ๊ด์ ์ด ์๋ค.
๋น๋์ (frequentist) ํน์ ๊ณ ์ ์ (classical) ๊ด์ : ํ๋ฅ ์ ์์์ ๋ฐ๋ณต ๊ฐ๋ฅํ ์ฌ๊ฑด์ ๋น๋์
๋ฒ ์ด์ง์(Bayesian) ๊ด์ : ๋ถํ์ค์ฑ์ ์ ๋ํํ๊ณ ์ฆ๊ฑฐ๋ฅผ ํตํด ๋ถํ์ค์ฑ์ ์ค์ฌ ๋๊ฐ๋ ๊ฒ, ๋ถํ์ค์ฑ์ ๋ํ๋ด๋ ๋๊ตฌ๋ก ํ๋ฅ ์ ์ฌ์ฉ.
1.1์ ์ ์์ ์์ ๋งค๊ฐ๋ณ์ ๋ฅผ ๋ฒ ์ด์ง์ ๊ด์ ์ ์ฌ์ฉํ๋ฉด, ํ๋ฅ ๋ก ์ ๋ค์ํ ์ฅ์น๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ๋ถํ์ค์ฑ์ ์ค๋ช ํ ์ ์๋ค. ์ฒซ ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ๊ธฐ ์ ์ ์ ๋ํ ๊ฐ์ ์ ์ฌ์ ํ๋ฅ ๋ถํฌ ๋ก ํํํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ด์ธก๋ ๋ฐ์ดํฐ ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก์จ ์์ฉํ๋ค. ๋ฐ์ดํฐ ๊ด์ฐฐ ํ ๋งค๊ฐ๋ณ์์ ํ๋ฅ ์ ๋ฒ ์ด์ง์ ์ ๋ฆฌ๋กค ํ์ด๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์์ 1.43 ์ฐ์ธก์ ๋ ๊ฐ๋ฅ๋ ํจ์(likelihood function)๋ผ๊ณ ํ๋ฉฐ ์ด๋ ๋งค๊ฐ๋ณ์ ๋ฒกํฐ ์ ํจ์๋ก ๋ณผ ์ ์๋ค. ๊ฐ๋ฅ๋ ํจ์์ ์๋ฏธ๋ ์ฃผ์ด์ง ์ ๋ํด ๊ด์ธก๋ ๋ฐ์ดํฐ ์งํฉ์ด ์ผ๋ง๋ '์ด๋ ๊ฒ ๋ํ๋ ๊ฐ๋ฅ์ฑ์ด ์๋๊ฐ'๋ฅผ ํํํ๋ค. ๊ฐ๋ฅ๋ ํจ์๋ ์ ๋ํ ํ๋ฅ ๋ถํฌ๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ ๋ถํด๋ 1์ด ๋ ํ์๊ฐ ์๋ค.
๋น๋์ ๊ด์ ๊ณผ ๋ฒ ์ด์ง์ ๊ด์ ์ ์ฐจ์ด๋ ๊ฐ๋ฅ๋ ํจ์์์ ๋ํ๋๋ค.
๋น๋์ ๊ด์ :
๊ฐ ๊ณ ์ ๋ ๋งค๊ฐ๋ณ์์ด๊ณ , ์ด๋ค ํํ์ '์ถ์ ์(estimator)' ๋ฐ์ดํฐ ์ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ฉด์ ์ค๋ฅ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋งค๊ฐ๋ณ์๊ฐ์ด ๊ฒฐ์ ๋๋ค.
๋ณดํต estimator๋ก ์ต๋ ๊ฐ๋ฅ๋(maximum likelihood)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ฐ ๊ฐ๋ฅ๋ ํจ์ ๋ฅผ ์ต๋ํํ๋ ๊ฐ์ผ๋ก ์ ํ๋๋ค. ๋ณดํต ์์ ๋ก๊ทธ ๊ฐ๋ฅ๋(negative log likelihood)๋ฅผ ์ค์ฐจํจ์(error function)๋ก ์ค์ ํ์ฌ ์ถ์ ํ๋ค(๋จ์กฐ ๊ฐ์ํ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅ๋์ ์ต๋๊ฐ์ ์ฐพ๋ ๊ฒ์ ๊ณง ์ค์ฐจํจ์์ ์ต์๊ฐ์ ์ฐพ๋ ๊ฒ๊ณผ ๋์ผ).
์ค์ฐจ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ค ํ๋๋ ๋ถํธ์คํธ๋ฉ(bootstrap)์ธ๋ฐ, ๋ฐ์ดํฐ ์งํฉ์์ ์ฌ๋ฌ๋ฒ ์ค๋ณต ๊ฐ๋ฅํ๊ฒ ์์๋ก ์ถ์ถํ์ฌ ์ฌ๋ฌ๊ฐ์ ๋ฐ์ดํฐ ์งํฉ์ผ๋ก ๋ง๋ ํ, ์ฌ๋ฌ๋ฒ ๋งค๊ฐ๋ณ์๋ฅผ ์ถ์ ํ์ฌ ์ถ์ ๊ฐ์ ํต๊ณ์ ์ ํ๋๋ฅผ ํ๋จํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ฒ ์ด์ง์ ๊ด์ :
๋ง์ ๊ฒฝ์ฐ ์ค ํ๋์ ๋ฐ์ดํฐ ์งํฉ ์ด ๊ด์ธก๋ ๊ฒ์ผ ๋ฟ์ด๋ฉฐ, ๋งค๊ฐ๋ณ์ ์ ๋ถํ์ค์ฑ์ ์ ๋ถํฌ๋ก ํํํ๋ค.
์ฅ์ ์ค ํ๋๋ ์ฌ์ ์ง์์ ์ถ๋ก ๊ณผ์ ์ ์์ฐ์ค๋ฝ๊ฒ ํฌํจ์ํฌ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๊ณผ๋ํ ๊ฒฐ๋ก ์ด ๋์ค์ง ์๊ฒ ๋ฐฉ์งํ๋ค. ์: ๋์ ์ ์ธ๋ฒ ๋์ก๋๋ฐ ๋ชจ๋ ์๋ฉด์ธ ๊ฒฝ์ฐ ๋น๋์ ๊ด์ ์์ ํ๋ฅ ์ 1์ด๋ค.
๋ช ๊ฐ์ง ๋นํ์ค ํ๋๋ ์ฌ์ ํ๋ฅ ์ ์ ํ์ ๋ฐ๋ผ ๊ฒฐ๋ก ์ด ๋๊ธฐ ๋๋ฌธ์ ์ถ๋ก ๊ณผ์ ์ ์ฃผ๊ด์ด ํฌํจ๋ ์๋ฐ์ ์๋ค. ์ด๋ฅผ ๋ณด์ ํ๊ธฐ ์ํด ๋ฌด์ ๋ณด์ (noninformative) ์ฌ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ ์๋ค.
๋ฒ ์ด์ง์ ์ ์ฐจ๋ฅผ ์์ ํ ํ์ฉํ๊ธฐ ์ํด์๋ ์ ์ฒด ๋งค๊ฐ๋ณ์ ๊ณต๊ฐ์ ๋ํ marginalize(์ฃผ๋ณํ: ํฉ ๋๋ ์ ๋ถ)์ด ํ์ํ๋ค. ๋ชฌํ ์นด๋ฅผ๋ก ๋ฐฉ๋ฒ๋ก ๊ณผ ์ปดํจํฐ ์ฐ์ฐ ์๋, ๋ฉ๋ชจ๋ฆฌ์ ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค.
1.2.4 The Gaussian distribution
2์ฅ์์ ๋ค์ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ดํด๋ณด๊ธฐ ์ ์ ์์ฃผ ๋ณด๋ ๊ฐ์ฐ์์ ๋ถํฌ(Gaussian distribution) ๋๋ ์ ๊ท ๋ถํฌ(normal distribution)๋ฅผ ๋จผ์ ์ดํด๋ณธ๋ค.
๋จ์ผ ์ค์ ํ๋ฅ ๋ณ์ ์ ๋ํด์ ๊ฐ์ฐ์์ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋ ํ๊ท (mean), ๋ถ์ฐ(variance), ๋ ํ์คํธ์ฐจ(standard deviation)๋ผ๊ณ ํ๊ณ , ๋ถ์ฐ์ ์ญ์ธ ๋ ์ ๋ฐ๋(precision)๋ผ๊ณ ํ๋ค.
๊ฐ์ฐ์์ ๋ถํฌ๋ ํ๋ฅ ๋ถํฌ์ ํน์ฑ์ ๋ง์กฑํ๋ค.
๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ์์์ ์ ๋ํด ํจ์์ ๊ธฐ๋๊ฐ์ ๊ตฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด์ ์ฐ์ ๋ณ์ D์ฐจ์ ๋ฒกํฐ ๋ก ํ์ฅํ๋ค. ์ ๋ํ ๊ฐ์ฐ์์ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
D์ฐจ์ ๋ฒกํฐ ๋ ํ๊ท ๊ฐ, ํ๋ ฌ ๋ ๊ณต๋ถ์ฐ์ด๋ผ๊ณ ํ๋ค. ๋ ์ ํ๋ ฌ์์ด๋ค.
๋ค์ ๋จ์ผ ์ค์ ํ๋ฅ ๋ณ์๋ก ๋์์ค๋ฉด, ๊ด์ธก ๋ฐ์ดํฐ ์์ ๊ฐ ๋ณ์ ๋ ํ๊ท ๊ฐ , ๋ถ์ฐ ๋ฅผ ๋ฐ๋ฅด๋ ๊ฐ์ฐ์์ ๋ถํฌ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถํ๋ค๊ณ ๊ฐ์ ํ๋ค. ์ด๋ฅผ ๋ ๋ฆฝ์ ์ด๊ณ ๋์ผํ๊ฒ ๋ถํฌ(independent and identically distributed - i.i.d) ๋์๋ค๊ณ ํ๋ค. ๋ฐ๋ผ์ ๋ i.i.d์ด๊ธฐ ๋๋ฌธ์ ๊ฐ ์ฃผ์ด์ก์ ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์์ 1.53์ ์ ๋ํ ๊ฐ๋ฅ๋ ํจ์(likelihood function)์ ํด๋นํ๋ค. ๊ด์ธก๋ ๋ฐ์ดํฐ ์งํฉ()์ ๋ฐํ์ผ๋ก ๋งค๊ฐ๋ณ์ ๋ฅผ ๊ฒฐ์ ์ง๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ ๊ฐ๋ฅ๋ ํจ์๋ฅผ ์ต๋ํํ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ์ด๋ ์๋ณ์ ๋จ์กฐํจ์์ธ ๋ฅผ ์ทจํ์ฌ ์ต๋๊ฐ์ ์ฐพ๋ ๊ฒ๊ณผ ๋์ผํ๋ค.
์ ๋ํด ์์ 1.54์ ์ต๋๊ฐ์ ์ฐพ์ผ๋ฉด, ๊ด์ฐฌ๊ฐ๋ค์ ํ๊ท ์ธ ํ๋ณธ ํ๊ท (sample mean)๊ณผ ํ๋ณธ ๋ถ์ฐ(sample variance)์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฌ๋ ์ด๋ ๊ฒ ๊ตฌํ๋ ๊ฒ์ ๋ถํฌ์ ๋ถ์ฐ์ ๊ณผ์ํ๊ฐํ๊ฒ ๋๋ค. ์ ์์๋ค์ ๊ธฐ๋๊ฐ์ ๊ตฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ฆ, ์ค์ ๋ถ์ฐ์ ๋งํผ ์์์ ธ ์๋ค๋ ๊ฒ์ ์ ์ ์์ผ๋ฉฐ, ์ด๋ ๊ฒ ์ฐจ์ด๊ฐ ๋๋ ๊ฒ์ ํธํฅ(bias) ์ด๋ผ๋ ํ์์ด๋ค. ๋ฐ๋ผ์ ์ค์ ๋ถํฌ์ ๋ถ์ฐ()์ ์ถ์ ํ๋ ค๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์์ 1.59์์ ์ ์์๋ ๊ฒ์ ๋ฐ์ดํฐ ๊ฐ์()๊ฐ ํด ์๋ก ์ต๋ ๊ฐ๋ฅ๋๋ก ๊ตฌํ ํด(solution)์์ ํธํฅ์น๋ ์ ์ ์ค์ด๋ ๋ค. ๋ณต์กํ ๋ชจ๋ธ์ผ ์๋ก ์ต๋ ๊ฐ๋ฅ๋ ๋ฐฉ๋ฒ๊ณผ ์ฐ๊ด๋ ํธํฅ ๋ฌธ์ ๋ ์ฌ๊ฐํด์ง๋ค. ๋ํ, ์ด ํธํฅ ๋ฌธ์ ๋ ๊ณผ์ ํฉ ๋ฌธ์ ์ ๊ทผ๋ณธ์ ์ธ ์์ธ์ ํด๋นํ๋ค.
Last updated
Was this helpful?