본문으로 바로가기



다변량 정규분포의 최대우도추정량(MLE) 유도하기 2

category Statistics/Inference 2017.05.23 23:32
다변량 정규분포의 최대우도추정량(MLE) 유도하기 2

지난 시간에 이어서 오늘은 \(\Sigma\)에 대한 MLE유도를 이어가도록 하겠다. \(\Sigma\)에 대한 MLE를 구하기 위해서는 아래에 주어진 로그우도(Log-likelihood)함수를 매트릭스인 \(\Sigma\)로 미분을 해야한다. \[ \mathit{l}\left(\underline{x};\underline{\mu},\Sigma\right) \propto-\frac{n}{2}log\left|\Sigma\right|-\frac{1}{2}\sum_{i=1}^{n}\left(\underline{x}_{i}-\underline{\mu}\right)^{T}\Sigma^{-1}\left(\underline{x}_{i}-\underline{\mu}\right) \] 주어진 로그우도함수를 잘 살펴보면 첫번째 항은 \(\Sigma\)를 포함하고 있고, 두 번째 항은 \(\Sigma^{-1}\)를 포함하고 있다는 것을 알 수 있다. 행렬 미적분에서 2차 형식(Quadratic form) 꼴로 나타내어진 행렬에 대해 미분하는 방법이 역행렬꼴로 나타내어진 것을 미분하는 것보다 훨씬 쉽다는 점에 착안하여, 주어진 로그우도함수를 \(\Sigma\)로 미분하는 것이 아니라 \(\Sigma^{-1}\)로 미분해보자. (약간의 꼼수와 모로가도 서울만 가면 된다는 느낌적인 느낌)

\(A:=\Sigma^{-1}\)로 정의한 후 위의 주어진 식을 다시 나타내면 다음과 같다. \[ \mathit{l}\left(\underline{x};\underline{\mu},A\right) \propto-\frac{n}{2}log\left|A^{-1}\right|-\frac{1}{2}\sum_{i=1}^{n}\left(\underline{x}_{i}-\underline{\mu}\right)^{T}A\left(\underline{x}_{i}-\underline{\mu}\right)\\ =\frac{n}{2}log\left|A\right|-\frac{1}{2}\sum_{i=1}^{n}\left(\underline{x}_{i}-\underline{\mu}\right)^{T}A\left(\underline{x}_{i}-\underline{\mu}\right) \] 위의 두번째 등식은 \(|A^{-1}|=|A|^{-1}\) 때문에 성립한다. 자, 이제 주어진 식을 매트릭스 A로 미분하기 위해서 알아둬야할 미분공식을 알아보자.

  • \(A\)\(B\)가 행렬일 때 미분공식
    • \(\frac{\partial log\left|A\right|}{\partial A}=\left(A^{-1}\right)^{T}\)
    • \(\frac{\partial tr\left(AB\right)}{\partial A}=B^{T}\)

위 공식 중에 두번째로 소개한 트레이스(trace)가 들어간 미분 공식을 왜 필요한 것일까? 이유는 바로 두번째 항의 행렬 이차 형식의 결과값이 상수가 나오기 때문에 대각 행렬의 값을 의미하는 트레이스(trace)를 씌워도 값이 변하지 않고, 이것을 이용하여 미분을 하게되면 훨씬 쉽게 원하는 값을 얻을 수 있기 때문이다. 위 두 공식을 이용하여 주어진 함수를 행렬 A로 미분하는 과정은 다음과 같다. \[ \begin{align*} & \frac{\partial}{\partial A}\left(\frac{n}{2}log\left|A\right|-\frac{1}{2}\sum_{i=1}^{n}\left(\left(\underline{x}_{i}-\underline{\mu}\right)^{T}A\left(\underline{x}_{i}-\underline{\mu}\right)\right)\right)\\ = & \frac{\partial}{\partial A}\left(\frac{n}{2}log\left|A\right|\right)-\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial A}tr\left(\left(\underline{x}_{i}-\underline{\mu}\right)^{T}A\left(\underline{x}_{i}-\underline{\mu}\right)\right)\\ = & \frac{n}{2}\left(A^{-1}\right)^{T}-\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial A}tr\left(A\left(\underline{x}_{i}-\underline{\mu}\right)\left(\underline{x}_{i}-\underline{\mu}\right)^{T}\right)\\ = & \frac{n}{2}\left(A^{-1}\right)^{T}-\frac{1}{2}\sum_{i=1}^{n}\left(\underline{x}_{i}-\underline{\mu}\right)\left(\underline{x}_{i}-\underline{\mu}\right)^{T}\overset{set}{=}0 \end{align*} \] 위의 과정에서 두 가지 트레이스(trace)의 성질이 사용되었는데, 하나는 앞에서 언급한 상수는 트레이스를 씌워도 값이 똑같다는 것과 \(tr(AB)=tr(BA)\)와 같은 등식이 성립한다는 것이 사용되었다.

모수 \(\mu\)에 대한 MLE를 구할 때와 마찬가지로 구한 편미분 값을 영으로 놓은 다음 A를 다시 원래 \(\Sigma\)로 치환하자. 우리가 앞에서 A를 \(\Sigma^{-1}\)로 정의하였으므로, \(A^{-1}\)\(\Sigma\)가 되고, 공분산 행렬은 항상 대칭 행렬이라는 것을 떠올리면 \((A^{-1})^{T}\)\(Sigma\)와 같게 된다!! 따라서 우리가 그토록 기다리던 \(\Sigma\)의 MLE는 다음과 같다. \[ \hat{\Sigma}=\frac{1}{n}\sum_{i=1}^{n}\left(\underline{X}_{i}-\underline{\mu}\right)\left(\underline{X}_{i}-\underline{\mu}\right)^{T} \]

이제까지 구한 모수 \(\mu\)\(\Sigma\)의 MLE, \(\hat{\mu}\)\(\hat{\Sigma}\),를 살펴보면, 우리가 모평균과 모분산에 대한 추정량으로 표본 평균과 표본 분산(n이 크면)을 사용한다는 사실을 알 수 있다.

References

[1] Matrix Cookbook www.imm.dtu.dk/pubdb/views/edoc_download.php/3274/pdf/imm3274.pdf

[2] Anderson, T. W. (2003). An Introduction to Multivariate Statistical Analysis. Willey and Sons, New York, NY.

SHARE TO



티스토리 툴바