본문으로 바로가기



확률변수 함수의 분포를 알아보자 - Delta method에 대하여 (1)

category Statistics/Inference 2017.09.20 14:48
확률변수 함수의 분포를 알아보자 - Delta method에 대하여 (1)

이 포스팅의 내용은 A. W. van der Vaart의 Asymptotic Staticstis 3장의 예제 내용임을 밝힙니다.

이번 포스팅에서는 수리통계에 배우는 여러 도구 중 필자가 생각하기에 가장 유용한 도구라고 생각하고 있는 Delta method에 대하여 이야기해보도록 하자. 이 방법은 우리가 어떤 확률 변수열의 점근 분포(asymptotic)를 알고있을때 이를 이용하여 다른 좀 더 복잡한 형태의 확률변수의 분포를 알아내는데에 사용된다.

Delta method theorem

Delta method 정리는 다음과 같다.

\(\theta\)에 대하여 미분 가능한 함수 \(g\)의 정의역이 \(k\)차원에 속하고, 정의역의 원소들을 \(m\)차원의 공간으로 보내는 함수가 있다고 가정하자. 이것을 수학적으로 쓰면 다음과 같다.

\[ g:D_{g}\subseteq\mathbb{R}^{k}\rightarrow\mathbb{R}^{m} \]

다음으로 함수 \(g\)의 정의역에 값들을 갖는 확률변수열 \(Y_n\)을 생각하자. 우리가 만약 이 확률변수열이 \(r_n \rightarrow \infty\)일 때, 다음과 같은 점근 분포를 따른다는 것을 알고 있다고 가정하면,

\[ r_{n}\left(Y_{n}-\theta\right)\overset{d}{\longrightarrow}Y \]

우리는 좀 더 복잡한 형태의 점근 분포를 다음과 같이 손쉽게 구할 수 있다.

\[ r_{n}\left(g\left(Y_{n}\right)-g\left(\theta\right)\right)\overset{d}{\longrightarrow}\left(\triangledown g_{\theta}\right)^{T}Y \]

위의 일반적인 정리를 보고 이해가 가는 독자들도 있겠지만, 좀 더 구체적인 예를 먼저 보고나면 위의 정리가 훨씬 쉽게 다가올 것이라 생각한다.

예제를 통한 이해

예제 1

확률변수 \(X_i, i = 1, ..., n\)이 독립이고 같은 분포를 따른다고 가정하면, 우리는 중심극한정리를 사용하여 다음과 같은 점근 분포를 얻을 수 있다.

\[ \sqrt{n}\left(\overline{X}-\mu\right)\overset{d}{\longrightarrow}\mathcal{N}\left(0,\sigma^{2}\right) \]

위에서 \(\mu \ne 0\)\(\sigma^2\)는 확률변수 \(X\)의 평균과 분산을 나타내는 모수이다. 이 경우 앞에서 설명한 delta method의 설명에서 나온 \(r_n\)\(\sqrt{n}\)에 대응하고, \(\theta\)의 경우는 \(\mu\)에, 수렴분포는 평균이 0이고, 분산이 \(\sigma^2\)인 정규분포가 된다.

이렇게 주어진 점근 분포를 바탕으로 우리는 다음의 점근 분포를 delta method를 이용하여 손쉽게 구할 수 있다.

\[ \sqrt{n}\left(\frac{1}{\overline{X}}-\frac{1}{\mu}\right)\overset{d}{\longrightarrow}? \]

함수 g를 \(g(x)=1/x\)라고 정의하면, 우리가 점근 분포를 알고자 하는 확률변수 \(1/\overline{X}\)\(g(\overline{X})\)라고 볼 수 있으므로, 앞에서의 delta method 정리에 의하여 위의 점근 분포는 다음의 분포로 수렴하게 된다.

\[ \sqrt{n}\left(\frac{1}{\overline{X}}-\frac{1}{\mu}\right)\overset{d}{\longrightarrow}-\frac{1}{\mu^{2}}Y \]

\[ \sqrt{n}\left(\frac{1}{\overline{X}}-\frac{1}{\mu}\right)\overset{d}{\longrightarrow}-\frac{1}{\mu^{2}}Y\sim\mathcal{N}\left(0,\frac{1}{\mu^{4}}\sigma^{2}\right) \]

예제 2

다음은 좀 더 일반적인 경우인 multivariate delta method의 경우에 대하여 알아보자. \(X_1, X_2, ..., X_n\)들이 평균이 \(\mu\)이고 분산이 \(\sigma^2\)인 분포를 따른다고 가정할 때, 우리가 알고 싶어하는 것은 바로 표본 분산, \(S^{2}=\frac{1}{n}\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}\),의 점근 분포를 구하는 것이다. (계산의 편의를 위하여 표본 분산의 식을 \(1/n\)으로 설정하였다.)

우리는 수리 통계 시간에 배운 다변량 중심극한정리를 이용하여 다음의 점근 분포를 얻을 수 있다.

\[ \sqrt{n}\left(\left(\begin{array}{c} \overline{X}\\ \overline{X^{2}} \end{array}\right)-\left(\begin{array}{c} \mu_{1}\\ \mu_{2} \end{array}\right)\right)\overset{d}{\longrightarrow}\mathcal{N}_{2}\left(\left(\begin{array}{c} 0\\ 0 \end{array}\right),\left(\begin{array}{cc} \mu_{2}-\mu_{1}^{2} & \mu_{3}-\mu_{1}\mu_{2}\\ \mu_{3}-\mu_{1}\mu_{2} & \mu_{4}-\mu_{2}^{2} \end{array}\right)\right) \]

즉, 이 예제에서 위의 정리에서 언급한 \(r_n\)\(\sqrt{n}\)이 되고, \(\theta\)의 경우는 \(\mu_1, \mu_2\) 벡터가 된다. 또한 수렴하는 분포를 갖는 확률변수 \(Y\)는 이 경우에 2변량 정규분포가 된다. 여기에서 \(\mu_i\)의 경우 확률변수 \(X\)\(i\)승 기댓값, \(\mu_i=\mathbb{E}X^i\),이 된다. 즉, 분산의 경우 제곱의 평균 빼기 평균의 제곱이므로 위의 공식을 사용하면 \(\mu_2 - \mu_1 ^2\)이 되는 것이다. 위의 점근 분포를 어떻게 얻을 수 있는가에 대한 내용은 이번 포스팅의 범위에서 벗어나므로 일단 위의 점근 분포를 우리가 알고 있다고 받아들이도록 하자.

Delta method를 사용하려면 먼저 \(S^2\)가 우리가 점근 분포를 알고있는 벡터 \(\overline{X}\)\(\overline{X^2}\)를 사용하여 어떻게 만들수 있는지를 알아내야 한다. 이것은 바로 위의 정리에서 함수 \(g\)를 알아내는 과정이다.

\(S^2\)를 전개한 후 알맞은 형태를 정리해보도록 하자.

\[ \begin{align*} S^{2} & =\frac{1}{n}\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}\\ & =\frac{1}{n}\sum_{i=1}^{n}\left(X_{i}^{2}-2X_{i}\overline{X}+\overline{X}^{2}\right)\\ & =\overline{X^{2}}-\overline{X}^{2} \end{align*} \]

위와 같이 정리해보면 \(S^2\)는 다음과 같이 함수 \(g(x,y)= y - x^2\)\(\overline{X}\)\(\overline{X^2}\)를 넣은 꼴이라고 생각할 수 있다.

\[ S^{2}=g\left(\overline{X},\overline{X^{2}}\right)=\overline{X^{2}}-\overline{X}^{2} \]

Delta method를 적용하기 위하여 함수 g를 각 변수에 대하여 미분하면

\[ \triangledown g=\left(\begin{array}{c} -2x\\ 1 \end{array}\right) \]

를 얻을 수 있고, 우리가 생각하는 \(\theta\)에서의 gradient 벡터 값, \(\triangledown g _ \theta\),은 \((-2\mu_1, 1)^T\)이 된다. 따라서 위의 Delta method의 식에 넣어보면 다음과 같은 점근 분포를 얻을 수 있게 된다.

\[ \begin{align*} \sqrt{n}\left(g\left(\left(\begin{array}{c} \overline{X}\\ \overline{X^{2}} \end{array}\right)\right)-g\left(\left(\begin{array}{c} \mu_{1}\\ \mu_{2} \end{array}\right)\right)\right) & \overset{d}{\longrightarrow}\left(\triangledown g_{\theta}\right)^{T}Y\\ \Rightarrow\sqrt{n}\left(S^{2}-\sigma^{2}\right) & \overset{d}{\longrightarrow}\left(\begin{array}{cc} -2\mu_{1} & 1\end{array}\right)Y \end{align*} \]

여기서 확률변수 \(Y\)는 이변량 정규분포로 위에서 얻었다고 가정한 분포이다.

\[ Y\sim\mathcal{N}_{2}\left(\left(\begin{array}{c} 0\\ 0 \end{array}\right),\Sigma:=\left(\begin{array}{cc} \mu_{2}-\mu_{1}^{2} & \mu_{3}-\mu_{1}\mu_{2}\\ \mu_{3}-\mu_{1}\mu_{2} & \mu_{4}-\mu_{2}^{2} \end{array}\right)\right) \]

정규분포를 따르는 확률변수들의 선형변환은 다시 정규분포를 따른다는 사실을 이용하면 우리는 표본 분산의 점근 분포를 다음과 같이 알아낼 수 있다.

\[ \begin{align*} \left(\begin{array}{cc} -2\mu_{1} & 1\end{array}\right)Y & \sim\mathcal{N}_{2}\left(\left(\begin{array}{cc} -2\mu_{1} & 1\end{array}\right)\left(\begin{array}{c} 0\\ 0 \end{array}\right),\left(\begin{array}{cc} -2\mu_{1} & 1\end{array}\right)\Sigma\left(\begin{array}{c} -2\mu_{1}\\ 1 \end{array}\right)\right)\\ & =\mathcal{N}_{2}\left(0,4\mu_{1}^2\left(\mu_{2}-\mu_{1}^{2}+\mu_{1}\mu_{3}-\mu_{1}^{2}\mu_{2}\right)+\mu_{4}-\mu_{2}^{2}\right) \end{align*} \]

Reference

[1] Van der Vaart, Aad W. Asymptotic statistics. Vol. 3. Cambridge university press, 1998.

[2] Casella, George, and Roger L. Berger. Statistical inference. Vol. 2. Pacific Grove, CA: Duxbury, 2002.


SHARE TO

신고


티스토리 툴바