3.1 베이즈 추론에서의 사후분포 구하기의 어려움

3.1.1 사후분포(Posterior Distribution)란?

베이즈 정리에 따르면, 어떤 잠재 변수(또는 파라미터) $S$가 있고, 관측 데이터 $O$가 주어졌을 때, 사후분포 $p(S \mid O)$는 다음과 같이 정의됩니다.

$$ p(S \mid O) \;=\; \frac{p(O,S)}{p(O)} \;=\; \frac{p(O \mid S)\, p(S)}{p(O)} $$

3.1.2 사후분포를 직접 계산하기 힘든 이유

실제 머신러닝이나 통계 모델을 설정하다 보면, p(O,S)가 굉장히 복잡한 형태(비선형, 고차원 등)를 띨 때가 많습니다.

직관적 요약

“사후분포 $p(S \mid O)$자체가 너무 복잡하여, 직접 적분/합을 통해 구하기 힘들다.”

→ “그렇다면 **근사(Approximation)**를 통해, 좀 더 간단한 방식으로 처리하자.”


3.2 변분추론 아이디어: 복잡한 분포를 단순한 분포로 근사하기

3.2.1 변분(Variational) 분포 $q(S)$

변분추론에서 우리는 “복잡한 사후분포 $p(S \mid O)$”를 직접 다루는 대신, **‘단순한(조절 가능한)’ 분포 $q(S)$**를 새로 정의합니다.

핵심

3.2.2 KL Divergence 최소화

“비슷하도록 만든다”는 것을 수학적으로 표현하면, KL Divergence를 최소화하는 문제로 귀결됩니다.