a.1 From Set Theory to Probability Theory

Set Theory

최성준님의 베이지안 딥러닝 자료를 많이 참고했습니다.

집합론(set theory)은 추상적 대상들의 모임인 집합을 연구하는 수학 이론이다. 기본적인 개념은 위키링크를 달아 두었다.

  • 집합(set): 특정 조건에 맞는 원소들의 모임

  • 원소(element): 집합을 이루는 개체, 원소 aa가 집합 AA에 속할 경우 aAa \in A라고 표기한다.

  • 부분 집합(subset): 집합 A의 모든 원소가 다른 집합 B에도 속하는 관계일 경우, A는 B의 "부분 집합"이라고 한다.

  • 전체집합(universal set): 모든 대상(자기 자신도 포함)을 원소로 포함하는 집합

  • 집합의 연산(set operations)

    • 곱집합(product set, Cartesian product): 각 집합의 원소를 각 선분으로 하는 튜플(tuple)들의 집합

      A×B={(a,b):aA,bB}A \times B = \{ (a, b): \mathtt{a} \in A, \mathtt{b} \in B\}

      • 예시: A={1,2},B={3,4,5}A×B={(1,3),(1,4),(1,5),(2,3),(2,4),(2,5)}A = \{ 1, 2 \}, B = \{ 3, 4, 5 \} \rightarrow A \times B = \{ (1,3), (1,4), (1,5), (2,3), (2,4), (2,5) \}

  • 서로소 집합(disjoint set): 공통 원소가 없는 두 집합, AB=A \cap B = \emptyset

  • 집합의 분할(partition of a set): 집합의 원소들을 비공 부분 집합들에게 나눠주어, 모든 원소가 각자 정확히 하나의 부분 집합에 속하게끔 하는 것

    • 예시: A={1,2,3,4}partition of set A={{1,2},{3},{4}}A = \{ 1, 2, 3, 4 \} \rightarrow \text{partition of set A} = \{ \{1, 2\}, \{3\}, \{4\} \}

  • 멱잡합(power set of set A, 2A\coloneqq 2^A): 주어진 집합의 모든 부분 집합들로 구성된 집합(the set of all the subsets)

    • 예시: A={1,2,3}power set of 2A={,{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3}}A = \{ 1, 2, 3 \} \rightarrow \text{power set of 2}^A = \{ \emptyset, \{1\},\{2\},\{3\},\{1,2\},\{2,3\},\{1,3\},\{1,2,3\} \}

  • 집합의 크기(Cardinality): 집합의 "원소 개수"에 대한 척도, A\vert A \vert로 표기 한다. 집합의 크기를 표현하는 용어로 finite, infinite, countable, uncountable, denumerable(countably infinite)가 있다.

    • 가산 집합(countable set): 관심있는 집합과 자연수의 집합으로 일대일 함수(one-to-one function)관계가 존재하면, 그 집합은 가산 집합이다. 특히, 자연수, 정수, 유리수와 같이 셀수 있는 무한 집합의 경우, 가산 무한(countable infinite)이나 가부번 집합(denumerable set)이라고 한다.

    • 비가산 집합(uncountable set): 가산 집합이 아닌 집합, 실수는 비가산 집합

Function

1.2.0.1
  • 함수/사상(function/mapping): 첫 번째 집합의 임의의 한 원소를 두 번째 집합의 오직 한 원소에 대응시키는 이항 관계이다. 입력이 되는 집합 UU를 정의역(domain), 출력으로 대응되는 집합 VV를 공역(codomain)이라고 한다.

    f:UdomainVcodomainf: \underset{domain}{U} \rightarrow \underset{codomain}{V}

  • 상(image): domain의 원소(혹은 부분 집합)가 대응하는 codomain의 원소(혹은 집합)

    f(x)V,xUorf(A)={f(x)xA}V,AUf(x) \in V, x \in U \quad \text{or} \quad f(A) = \{ f(x) \vert x \in A \} \subseteq V, A \subseteq U

    반대로 codomain의 원소에 대응하는 domain의 원소를 역상(inverse image)이라고 한다(원소의 역상은 부분 집합이라는 것을 주의).

    f1(y)={xUf(x)V}Vorf1(B)={xf(x)B}U,BVf^{-1}(y) = \{ x \in U \vert f(x) \in V \} \subseteq V \quad \text{or} \quad f^{-1}(B) = \{ x \vert f(x) \in B \} \subseteq U, B \subseteq V

  • 치역(range): 함수의 모든 출력값의 집합, 치역은 공역(codomain)의 부분 집합이다.

1.2.0.2

Measure Theory

측도(measure) 이란 특정 부분 집합에 대해 일종의 "크기"를 부여하며, 그 크기를 가산개로 쪼개어 게산할 수 있게 하는 함수다. 측도가 부여된 집합을 측도 공간(measure space)라고 하며, 이를 연구하는 수학 분야를 측도론(measure theory)라고 한다.

기본적으로 전체집합(universial set) UU가 주어졌을 때, 측도(measure)는 UU의 부분집합(subset)에 비음수인 실수를 할당한다. 우선 명확히 measure를 정의하기 위해서 필요한 것들을 정의해본다.

  • set function: 집합(set)에 대해 어떤 숫자를 부여하는 함수(ex, cardinality, length, area), 즉 입력을 집합, 출력은 숫자가 되는 함수

  • σ\sigma-field B\mathcal{B}: 다음과 같은 조건을 만족하는 전체집합 UU의 부분 집합 모음B\mathcal{B}σ\sigma-field 라고 한다(σalgebra\sigma-\text{algebra}와 같은 말).

    1. B\emptyset \in \mathcal{B}, empty set is included

    2. BBBcBB \in \mathcal{B} \Rightarrow B^{c} \in \mathcal{B}, closed under set complement

    3. BiBi=1BiBB_i \in \mathcal{B} \Rightarrow \bigcup_{i=1}^{\infty}B_i \in \mathcal{B}, closed under countable union

  • σ\sigma-field는 measure를 부여할 수 있는 최소 단위가 된다. 만약 어떤 원소가 σ\sigma-field에 존재하지 않는다면, 그 원소는 측정할 수 없다.

  • σ\sigma-field 특성

    1. UBU \in \mathcal{B}

    2. BiBi=1BiBB_i \in \mathcal{B} \Rightarrow \bigcap_{i=1}^{\infty}B_i \in \mathcal{B}, closed under countable intersection

    3. 2U2^U, power set of U 는 가장 단위가 자잘자잘 하게 만든 σ\sigma-field

    4. B\mathcal{B} 는 유한하거나 비가산 둘 중 하나다, 가산 무한/가번부(countable infinite/denumerable)가 될 수 없다.

    5. B,C are σ-fieldBC is σ-field, but BC is not\mathcal{B}, \mathcal{C} \text{ are } \sigma \text{-field} \Rightarrow \mathcal{B} \cap \mathcal{C} \text{ is } \sigma \text{-field, but } \mathcal{B} \cup \mathcal{C} \text{ is not}

  • 가측 공간(measurable space): 간단히 말해서, 어떤 집합 UU가 있고 그 집합의 부분집합으로 만들어진 σ\sigma-field에 measure를 부여할 수 있는 공간 (U,B)(U, \mathcal{B})

측도(measure)를 정의하기 위한 준비는 다 되었다. 정의를 하면 다음과 같다.

  • measure μ\mu는 가측 공간(measureable space)-(U,B)(U, \mathcal{B})에서 정의된 set function, μ:B[0,]\mu: \mathcal{B}\rightarrow [0, \infty] 이다.

    1. μ()=0\mu(\emptyset) = 0

    2. For disjoint BiB_i and Bjμ(i=1Bi)=i=1μ(Bi)B_j \Rightarrow \mu(\bigcup_{i=1}^{\infty}B_i) = \sum_{i=1}^{\infty} \mu(B_i), countable addivitity

  • 즉, 가측 공간(measurable space)-(U,B)(U, \mathcal{B})과 measure μ\mu가 하나의 측도 공간(measure space)-(U,B,μ)(U, \mathcal{B}, \mu) 를 구성하게 된다.

Probability Theory

1.2.0.2

그림 1.2.0.2에서 Ω\Omega는 표본 공간(sample space)이라고 한다. 표본 공간에서 정의되는 측도(measure)는 대문자 P로 작성한다. 무슨 뜻인지는 다음을 계속 읽어본다.

  • 확률을 이야가 하기 위해서는 임의적 실험(random experiment)를 잘 정의 해야한다.

  • 결과(outcomes)는 임의적 실험에서 발생하며 더이상 나눌수 없는 모든 가능성 있는 현상들을 일컫는 말이다.

  • 사건(event)은 확률이 부여된 임의적 실험에서 발생한 결과(outcomes)의 집합이며, 표본 공간(sample space)의 부분 집합이다.

  • 표본(sample point) ww는 표본 공간(sample space)에서 임의적 실험을 통해 나올 수 있는 결과(outcome)를 말한다.

  • 표본 공간(sample space) Ω\Omega은 모든 sample point 의 집합이다.

  • 예를 들어, 공정한 정육면체 주사위를 랜덤으로 던지는 실험이 있다(random experiment). 결과(outcomes)로 한 면에 1~6까지 숫자가 보인다. 7은 나올 수 없기 때문에 관찰 가능한 결과(outcome)이 아니다. 그림 1.2.0.2 의 각 점들로 표현되어 있다. 이 그림은 모든 점들이 표본 공간 Ω\Omega 내에 정의 되어 있음으로, 모든 점들은 sample point이자 이 임의적 실험의 결과라고 할 수 있다. 마지막으로 "주사위를 굴렸을 때, 보이는 면이 짝수 인 경우", 즉 A로 표기된 Ω\Omega의 부분 집합은 사건(event)이다.

이제 확률의 명확한 정의를 내려본다.

  • 확률 PP 는 가측 공간(measureable space)-(Ω,A)(\Omega, \mathcal{A}) 에서 정의되는 set function P:A[0,1]P : \mathcal{A} \rightarrow [0, 1] 인데 다음 조건을 만족한다(기호가 약간 다른데, A\mathcal{A}σ\sigma-field, 일반 대문자 AAσ\sigma-field의 부분 집합임으로 잘 구분해야 함).

    1. P()=0P(\emptyset) = 0

    2. P(A)0,AΩP(A) \geq 0, \forall A \subseteq \Omega

    3. For disjoint sets AiA_i and Ajμ(i=1Bi)=i=1μ(Bi)A_j \Rightarrow \mu(\bigcup_{i=1}^{\infty}B_i) = \sum_{i=1}^{\infty} \mu(B_i), countable addivitity

    4. P(Ω)=1P(\Omega) = 1

  • 사실상 측도의 정의에서 2, 4번 항목이 추가된 것이다. 즉, 확률은 표본 공간에서 정의된 측도(measure) 혹은 set function 이라고 할 수 있겠다.

지금까지 확률은 가측 공간에서 정의된 것이다. 그렇다면 어떤 사건 AA에 어떻게 확률을 부여할까? 해답은 다음과 같다. 임의적 실험에서 나온 결과로 구성된 표본 공간 Ω\Omega가 있고, 그 표본 공간에서 발생한 사건 AA에 해당하는 확률을 부여한다. 여기서 확률 할당 함수(probability allocation function)이 등장한다.

  • probability allocation function

    • probability mass function: 이산(discrete) 표본 공간 Ω\Omega일 때, p:Ω[0,1]p: \Omega \rightarrow [0, 1] such that wΩp(w)=1\sum_{w\in \Omega} p(w)=1 and P(A)=wAp(w)P(A) = \sum_{w \in A} p(w)

    • probability density function: 연속(continuous) 표본 공간 Ω\Omega일 때, p:Ω[0,)p: \Omega \rightarrow [0, \infty) such that wΩf(w)dw=1\int_{w\in \Omega} f(w)dw=1 and P(A)=wAf(w)dwP(A) = \int_{w \in A} f(w)dw

확률 기타 부분

  • 조건부 확률(conditional probability) P(AB)P(AB)P(B)P(A\vert B) \triangleq \dfrac{P(A \cap B)}{P(B)}

  • 확률의 연쇄 법칙(chain rule): P(AB)=P(AB)P(B)P(A \cap B) = P(A \vert B) P(B)

  • 전체 확률의 법칙(total probability law): P(A)=P(AB)+P(ABc)=P(AB)P(B)+P(ABc)P(Bc)P(A) = P(A \cap B) + P(A \cap B^c) = P(A \vert B) P(B) + P(A \vert B^c) P(B^c)

  • 베이즈 정리(Bayes' rule): P(BA)=P(BA)P(A)=P(AB)P(A)=P(AB)P(B)P(A)P(B \vert A) = \dfrac{P(B \cap A)}{P(A)} = \dfrac{P(A \cap B)}{P(A)} = \dfrac{P(A \vert B)P(B)}{P(A)}

    • P(AB)P(A \vert B): likelihood

    • P(BA)P(B \vert A): posterior

    • P(B)P(B): prior

  • 독립 사건(independent events): P(AB)=P(A)P(B)P(A \cap B) = P(A) P(B) 만 만족하면 independent한 것이다(\neq disjoint, mutually exclusive)

    • 예시:

      1.2.0.4

Random Variable

  • 확률 변수(Random Variable)는 측정가능한(measureable) 확률 공간(Probability space)-(Ω,A,P)(\Omega, \mathcal{A}, P)보렐 가측 공간(Borel measureable space, 보통 실수들의 집합을 가르킴)-(R,B)(\Bbb{R}, \mathcal{B})에서 정의되는 함수다.

    X:ΩR such that BB,X1(B)AX: \Omega \rightarrow \Bbb{R} \text { such that } \forall B \in \mathcal{B}, X^{-1}(B) \in \mathcal{A}

    1.2.0.5

  • 여기서 랜덤(random)이란 확률 공간의 표본 공간(sample space, Ω\Omega)에서 하나를 임의로 뽑는 과정을 가르킨다. 그림 1.2.0.5와 같이 "숫자 4가 관측된다"라는 것을 풀어서 이야기하면 다음과 같다. 확률 공간의 표본 공간에서 임의로 뽑은 표본{4}를 확률 변수(XX)에 입력했을 때, 실수 공간(R\Bbb{R})에 해당하는 숫자값 4를 부여하는 과정이다.

  • 이산 확률 변수()

확률 밀도 함수(Probability density function) 상관분석(Correlation analysis)

Last updated

Was this helpful?