본문 바로가기

Contact English

【통계학】 5강. 통계량

 

5강. 통계량(statistical quantity)

 

추천글 : 【통계학】 통계학 목차


1. 기댓값 [본문]

2. 표준편차 [본문]

3. 공분산과 상관계수 [본문]

4. Anscombe's Quartet [본문]

5. 순서통계량 [본문]

6. 조건부 통계량 [본문]


a. SSIM

b. 거리함수와 유사도


 

1. 기댓값(expectation) [목차]

⑴ 정의 : 확률변수 X의 기댓값 E(X)는 시행 결과 평균적으로 얻어지는 X 값

① 이산확률변수

 

 

 

② 연속확률변수

 

 

 

 

⑵ 결합확률분포함수

① 이산확률변수

 

 

 

 

② 연속확률변수

 

 

⑶ 기댓값의 성질

① 선형성(linearity) : E(aX + bY + c) = aE(X) + bE(Y) + c

X와 Y가 독립일 때, E(XY) = E(X) × E(Y)

 

 

예제

① X : n명의 모자를 섞고 각자 1개씩 비복원추출 시, 올바르게 자신의 모자를 찾은 사람의 수

② 문제 의도 : p(X)를 구한 뒤 E(X)를 계산하는 것은 어려움

③ X = X1 + ··· + Xn, Xi : i번 사람이 자신의 모자를 찾은 경우 1, 아닌 경우 0

접근 1. 경우의 수 접근

 

 

접근 2. i번 사람이 최초로 추출한 때나 그렇지 않은 때의 기댓값은 대칭성에 의해 일정

 

 

⑸ (참고) 코시 분포(Cauchy distribution) : 기댓값이 정의되지 않음

 

 

 

2. 표준편차 [목차]

⑴ 편차(deviation)

① 정의 : D = X - E(X)

성질 1. E(D) = E(X - E(X)) = E(X) - E(X) = 0

⑵ 분산(variance, VAR)

① 정의 : E(X) = μ라 할 때, VAR(X) = E((X - μ)2) = E(D2)

성질 1. VAR(X) = E(X2) - μ2

○ 유도 : VAR(X) = E((X - μ)2) = E(X2) - 2μE(X) + μ2 = E(X2) - 2μ2 + μ2 = E(X2) - μ2

성질 2. VAR(aX + b) = a2 VAR(X)

 

 

성질 3. 공분산 도입 : VAR(X + Y) = VAR(X) + VAR(Y) + 2 COV(X, Y)

○ R.A. 피셔(R.A. Fisher)에 의해 1936년에 만들어짐

○ 유도

 

 

○ 일반화된 유도

 

 

○ 선형성 : X와 Y가 독립이면, VAR(X + Y) = VAR(X) + VAR(Y)

○ 공분산의 정의 : 중복되지 않는 (x1, y1), ···, (xn, yn)의 데이터 세트가 주어져 있을 때 x와 y의 공분산은 다음과 같이 주어짐

 

 

 만일 중복을 허용하면 표본비율 pi를 도입하여 공분산의 정의는 다음과 같이 변형됨 : 이때 yi = xi라면 공분산 = 분산이 됨

 

 

○ 2차원 공분산 행렬 Σ  (단, x = (x1, x2)T = (x, y)T)

 

 

Σ = E[ (x-E[x]) (x-E[x])T ]는 2차원뿐만 아니라 n차원에 대해서도 성립

성질 4. VAR(X) = 0 ⇔ P(X = constant) = 1 (Chebyshev 부등식)

 

 

⑶ 표준편차(standard deviation, SD)

① 정의 : X의 표준편차 σ 또는 SD(X)는 σ = √ VAR(X) ⇔ σ2 = VAR(X)

② 취지 : X와 분산은 단위가 같지 않지만, X와 표준편차는 단위가 같음

③ 성질 : VAR 및 σ는 양의 값을 가짐, 공분산의 부호를 판단할 때 알아야 함

⑷ 변동계수(coefficient of variation, CV)

① 표준편차를 평균으로 나눈 값 

② 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용 

 

 

3. 공분산과 상관계수 [목차]

⑴ 공분산(covariance, COV)

① 정의 : E(X) = μx, E(Y) = μy에 대해, 다음과 같이 정의

 

COV(X, Y) = σxy = E{(X - μx)(Y - μy)}

 

② 의미 : X가 변할 때 Y가 변하는 정도

성질 1. COV(X, Y) = E(XY) - E(X)E(Y)

○ 유도 : COV(X, Y) = E((X - μx)(Y - μy)) = E(XY) - μxE(Y) - μyE(X) + μxμy = E(XY) - μxμy

성질 2. X = Y이면 COV(X, Y) = VAR(X)

성질 3. X와 Y가 독립이면 COV(X, Y) = 0

○ 유도 : COV(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0

○ 독립은 더 엄격한 조건이기 때문에 COV(X, Y) = 0이라고 하여 X와 Y가 독립이라고 단정할 수 없음 

성질 4. COV(aX + b, cY + d) = ac COV(X, Y)

성질 5. COV(a1 X1 + a2 X2, Y) = a1 COV(X1, Y) + a2 COV(X2, Y)

⑧ 한계 : 성질 4에 의해 공분산은 연관성과 크기 정보를 모두 포함하므로 연관성만을 말할 수 없음

⑵ 피어슨 상관계수(Pearson correlation coefficient) : 단순히 상관계수라고도 함

① 정의 : X와 Y의 표준편차 σx, σy 대해,

 

 

○ 다중상관계수 : 변수가 3개 이상일 때 상관계수를 나타낸 것

○ 완전상관(complete correlation) : ρ = 1

○ 상관 없음(no correlation) : ρ = 0

② 도입배경 : 크기 정보를 제외하고 연관성 정보만 나타내기 위함. 공분산의 한계와 관련  

③ 특징

○ 등간, 비율척도로 측정된 두 변수들의 상관관계

○ 연속형 변수를 대상으로 함

○ 정규성 가정 

○ 대부분 많이 사용 

성질 1. -1 ≤ ρ(X, Y) ≤ 1 (correlation inequality)

○ 증명 : 코시-슈바르츠 부등식

○ ρ(X, Y) = 1 : X와 Y는 완전 비례관계

○ ρ(X, Y) = -1 : X와 Y는 완전 반비례관계

ρ(X, Y) = 0이라고 X와 Y가 독립인 것은 아님

반례 1. p(x) = I{x = -1, 0, 1} , Y = X2

○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = E(X3) = 0 

○ p(1, 1) = ⅓, p(x = 1) = ⅓, p(y = 1) = ⅔이므로, p(x, y) ≠ p(x) × p(y)

○ 독립의 정의 불성립

반례 2. S ={(x, y) | -1 ≤ x ≤ 1, x2 ≤ y ≤ x2 + 1/10}, p = 5 I{(x, y) ∈ S}

○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = 0

○ 일정 = p(x, y) = p(x) × p(y)이라는 독립의 정의에서 p(x)는 일정하지만 p(y)는 일정하지 않음

○ 독립의 정의 불성립

성질 2. ρ(X, X) = 1, ρ(X, -X) = -1

성질 3. ρ(X, Y) = ρ(Y, X)

성질 4. 크기 정보 제외 : ρ(aX + b, cY + d) = ρ(X, Y)

○ 유도 : ρ(aX + b, cY + d) = COV(aX + b, cY + d) ÷ aσx ÷ cσy = COV(X, Y) ÷ σxσy = ρ(X, Y)

성질 5. 연관성 정보 : | ρ(X, Y) | = 1과 Y = aX + b, (a ≠ 0, b는 상수)는 필요충분조건

○ 정방향 증명 : Z 설정에 대한 아이디어는 단순회귀분석에서 유래

 

 

○ 역방향 증명

 

 

상관계수의 통계적 추정

○ 귀무가설 H0 : 상관계수 = 0

○ 대립가설 H1 : 상관계수 ≠ 0

○ t 통계량 계산 : 표본으로부터 얻은 상관계수 r에 대하여, 

 

 

○ 위 통계량은 자유도가 n-2인 student t 분포를 따름 (단, 샘플의 개수를 n이라고 가정)

R Studio에서의 계산

○ cor(x, y)

○ cor(x, y, method = "pearson")

○ cor.test(x, y)
○ cor.test(x, y, method = "pearson")

⑶ Spearman 상관계수(Spearman correlation coefficient)

① 정의 : x' = rank(x)와 y' = rank(y)에 대해 다음과 같이 정의

 

 

② 특징

○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식

○ 순서형 변수를 대상으로 하는 비모수적 방법 

○ 제로가 많은 데이터에 유리함 

○ 데이터 내 편차나 에러에 민감

○ 켄달 상관계수보다 높은 값을 가짐 

R Studio에서의 계산

○ cor(x, y, method = "spearman")

○ cor.test(x, y, method = "spearman")

⑷ Kendall 상관계수(Kendall correlation coefficient)

① 정의 : concordant pair와 discordant pair에 대해 상관계수를 정의

② 특징 

○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식 

○ 순서형 변수를 대상으로 하는 비모수적 방법

○ 제로가 많은 데이터에 유리함

○ 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용함 

③ 절차

step 1. x 값에 대한 오름차순으로 y 값을 정렬 : 각 y 값을 yi로 표기 

step 2. 각 yi 값에 대하여 yj > yi (단, j > i)인 concordant piar의 개수를 셈 

step 3. 각 yi 값에 대하여 yj < yi (단, j > i)인 discordant pair의 개수를 셈 

step 4. 상관계수 정의 

 

 

○ nc : total number of concordnat pairs 

○ nd : total number of discordant pairs 

○ n : size of x and y 

R Studio에서의 계산

○ cor(x, y, method = "kendall")

○ cor.test(x, y, method = "kendall")

⑸ Matthew correlation coefficient (MCC)

 

 

⑹ χ2 : 근사의 적합성을 나타내는 척도

① 측정데이터를 xm, ym, 근사함수를 f(x)라 하면

 

 

 

② 근사함수를 구할 때 χ2의 미분을 통한 극소점 계산을 거침

③ 2차 근사함수와 같은 비선형 회귀에서 사용

 

 

4. Anscombe's Quartet [목차]

⑴ 평균, 표준편차, 상관계수로는 주어진 데이터의 개형을 설명할 수 없음을 보여줌

예시 1 

출처 : 이미지 클릭

Figure. 1. Anscombe's Quartet]

 

예시 2

 

출처 : 이미지 클릭

Figure. 2. Anscombe's Quartet

 

 

5. 순서통계량(order statistic) [목차]

⑴ 가정 : Xi와 Xj는 독립

⑵ 정의 : X1, ···, Xn을 재배열하여 Y1 < ··· < Yn이 되도록 Yi를 설정

⑶ 결합확률분포

 

 

⑷ 주변확률분포

 

 

⑸ 기댓값

 

 

 

6. 조건부 통계량 [목차]

⑴ 조건부 기댓값(conditional expectation)

① 정의

 

 

② 성질

○ E(XY | Y) = YE(X | Y)

○ E(aX1 + bX2 | Y) = aE(X1 | Y) + b(X2 | Y)

 

 

③ 반복 기댓값의 법칙(law of iterated expectation)

○ 정리

 

 

○ 증명

 

 

○ 예제

[0, ℓ]을 균일분포로 임의로 한 지점(Y)을 선택한 뒤, [0, y]을 균일분포로 임의로 한 지점(X)을 선택 시

 

 

④ 평균독립(mean independence)

 

독립 ⊂ 평균독립 ⊂ 비상관성(uncorrelatedness)

 

○ 평균독립

○ 비상관성 : 상관계수가 0인 경우

○ (참고) 정규분포 : X와 Y가 jointly normal이고 uncorrelated이면 X와 Y는 독립

⑤ (참고) 단순회귀분석

 

 

⑵ 조건부 분산(conditional variance)

① 정의 : 주어진 확률변수 X에 대해 Y의 조건부 분산

 

 

② 전분산의 정리(law of total variance, decomposition of variance)

○ 정리

 

 

○ 증명

 

 

○ 의미

○ 상황 : X ~ P1), Y ~ P2(X)일 때

○ VAR(Y | X), E(Y | X) 계산 시 P2를 이용

○ E{·}, VAR{·} 계산 시 P1을 이용

○ (참고) E(VAR(X | Y)) : 그룹 내 분산 (intra-group variance)

○ (참고) VAR(E(X | Y)) : 그룹 간 분산 (inter-group variance)

예제

○ X : 해고된 노동자의 실업기간

○ X의 확률밀도 : 지수분포

 

 

○ 전체 노동자의 20% : 숙련노동자. λ = 0.4

○ 전체 노동자의 80% : 미숙련노동자. λ = 0.1

○ VAR(X)의 계산

 

 

입력 : 2019.06.17 14:15