5. 실제 알고리즘 및 응용 예시 학습

아래에서는 5장에서 다룬 “실제 알고리즘 및 응용 예시 학습”을 좀 더 쉽고 친절하게 설명해보겠습니다. 이미 배운 변분추론(Variational Inference) 개념이 정말로 머신러닝/딥러닝 모델 속에서 어떻게 쓰이는지, 구체적인 알고리즘 예시를 통해 확인하시면 훨씬 이해가 잘 되실 것입니다. 어려워 보이는 수식과 이론들이 실제로 어떤 방식으로 모델 구현에 녹아드는지 차근차근 살펴보겠습니다.

5. 실제 알고리즘 및 응용 예시 학습

5.1 “근사 분포”를 어떻게 정하나요? (Mean-field & Amortized Inference)

앞선 장에서, “사후분포 $p(S\mid O)$가 복잡하다면, **근사 분포 $q(S)$**를 정해놓고 KL 발산을 최소화하면 된다!”라는 아이디어를 배웠습니다. 그렇다면 어떻게 근사 분포를 선택하고 구현할까요?

5.1.1 Mean-field Approximation (평균장 근사)

핵심 개념: 여러 잠재변수(예: $S = \{s_1, s_2, \dots, s_n\}$)가 있을 때, 독립(independent)이라고 가정하여 분포를 간단히 쪼개는 방법입니다.

$$ q(S) \;=\; q(s_1, s_2, \dots, s_n) \;\approx\; \prod_{i=1}^{n} q_i(s_i) $$
왜 독립 가정을 하나요?
- 실제로는 $s_i$들 간에 상관관계가 있을 수 있지만, 그렇게 하면 분포가 훨씬 복잡해집니다.
- 독립으로 가정하면, 계산해야 할 항들이 곱셈 형태로 분리되어 손쉬워집니다.
장점: 계산이 훨씬 빨라지고 구현이 쉬워집니다.
단점: 실제 상관관계를 무시하기 때문에, 정확도가 떨어질 수 있습니다(“가정이 너무 단순하면”이 대표적 문제).

예시 상황

수많은 픽셀로 구성된 이미지를 생각해보세요. 일반적으로, 이웃 픽셀은 서로 비슷한 색깔일 확률이 높으므로 ‘독립’이 아닙니다.

그런데 Mean-field를 쓰면, 픽셀별로 각각의 분포를 따로따로 다룬다고 가정해버립니다. 이러면 현실과 조금 다를 수 있지만, 모델 훈련이 한결 간단해집니다.

5.1.2 Amortized Inference (할부 추론)

핵심 개념: 근사 분포 $q_\phi(S\mid O)$를 신경망(Neural Network)으로 파라미터화해두고, 학습 단계에서 $ϕ$를 잘 찾아놓으면, 새로운 관측 O가 들어올 때 신경망의 Forward Pass 한 번으로 q를 뚝딱 얻어낼 수 있게 하는 방식입니다.
**“Amortize(할부로 갚다)”**라는 비유:
- 학습 단계에서 많은 비용(시간·연산)을 들여 $\phi$를 최적화해두면, 나중엔 (테스트 단계) 매번 새로운 데이터가 들어올 때마다 복잡한 최적화를 다시 안 해도 됩니다.
- 즉, 초기 투자를 통해, 이후 추론을 빠르게 만들어주는 기법이라고 볼 수 있습니다.
대표 예시: Variational Autoencoder(VAE)의 “인코더(Encoder) 네트워크”가 하는 일이 바로 이것입니다.

의의

대규모 데이터, 실시간 추론이 필요한 환경에서는 이 방법이 매우 유용합니다.

“근사 분포를 매번 새로 업데이트하기보단, 신경망이 한 번에 근사해주도록 만들자!”라는 아이디어가 강력한 효율성을 보여줍니다.

5.1.3 Structured Variational Inference (구조적 변분추론)

문제 제기

Mean-field 가정(“모든 잠재변수들이 독립이다”)은 계산적으로 매우 효율적이지만, 실제로는 잠재변수들 사이의 상관관계를 무시하기 때문에, 근사 오차가 클 수 있습니다.