5강. 통계량(statistical quantity)
추천글 : 【통계학】 통계학 목차
a. SSIM
b. 거리함수와 유사도
1. 기댓값(expectation) [목차]
⑴ 정의 : 확률변수 X의 기댓값 E(X)는 시행 결과 평균적으로 얻어지는 X 값
① 이산확률변수
② 연속확률변수
⑵ 결합확률분포함수
① 이산확률변수
② 연속확률변수
⑶ 기댓값의 성질
① 선형성(linearity) : E(aX + bY + c) = aE(X) + bE(Y) + c
② X와 Y가 독립일 때, E(XY) = E(X) × E(Y)
⑷ 예제
① X : n명의 모자를 섞고 각자 1개씩 비복원추출 시, 올바르게 자신의 모자를 찾은 사람의 수
② 문제 의도 : p(X)를 구한 뒤 E(X)를 계산하는 것은 어려움
③ X = X1 + ··· + Xn, Xi : i번 사람이 자신의 모자를 찾은 경우 1, 아닌 경우 0
④ 접근 1. 경우의 수 접근
⑤ 접근 2. i번 사람이 최초로 추출한 때나 그렇지 않은 때의 기댓값은 대칭성에 의해 일정
⑸ (참고) 코시 분포(Cauchy distribution) : 기댓값이 정의되지 않음
2. 표준편차 [목차]
⑴ 편차(deviation)
① 정의 : D = X - E(X)
② 성질 1. E(D) = E(X - E(X)) = E(X) - E(X) = 0
⑵ 분산(variance, VAR)
① 정의 : E(X) = μ라 할 때, VAR(X) = E((X - μ)2) = E(D2)
② 성질 1. VAR(X) = E(X2) - μ2
○ 유도 : VAR(X) = E((X - μ)2) = E(X2) - 2μE(X) + μ2 = E(X2) - 2μ2 + μ2 = E(X2) - μ2
③ 성질 2. VAR(aX + b) = a2 VAR(X)
④ 성질 3. 공분산 도입 : VAR(X + Y) = VAR(X) + VAR(Y) + 2 COV(X, Y)
○ R.A. 피셔(R.A. Fisher)에 의해 1936년에 만들어짐
○ 유도
○ 일반화된 유도
○ 선형성 : X와 Y가 독립이면, VAR(X + Y) = VAR(X) + VAR(Y)
○ 공분산의 정의 : 중복되지 않는 (x1, y1), ···, (xn, yn)의 데이터 세트가 주어져 있을 때 x와 y의 공분산은 다음과 같이 주어짐
○ 만일 중복을 허용하면 표본비율 pi를 도입하여 공분산의 정의는 다음과 같이 변형됨 : 이때 yi = xi라면 공분산 = 분산이 됨
○ 2차원 공분산 행렬 Σ (단, x = (x1, x2)T = (x, y)T)
○ Σ = E[ (x-E[x]) (x-E[x])T ]는 2차원뿐만 아니라 n차원에 대해서도 성립
⑤ 성질 4. VAR(X) = 0 ⇔ P(X = constant) = 1 (Chebyshev 부등식)
⑶ 표준편차(standard deviation, SD)
① 정의 : X의 표준편차 σ 또는 SD(X)는 σ = √ VAR(X) ⇔ σ2 = VAR(X)
② 취지 : X와 분산은 단위가 같지 않지만, X와 표준편차는 단위가 같음
③ 성질 : VAR 및 σ는 양의 값을 가짐, 공분산의 부호를 판단할 때 알아야 함
⑷ 변동계수(coefficient of variation, CV)
① 표준편차를 평균으로 나눈 값
② 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용
3. 공분산과 상관계수 [목차]
⑴ 공분산(covariance, COV)
① 정의 : E(X) = μx, E(Y) = μy에 대해, 다음과 같이 정의
COV(X, Y) = σxy = E{(X - μx)(Y - μy)}
② 의미 : X가 변할 때 Y가 변하는 정도
③ 성질 1. COV(X, Y) = E(XY) - E(X)E(Y)
○ 유도 : COV(X, Y) = E((X - μx)(Y - μy)) = E(XY) - μxE(Y) - μyE(X) + μxμy = E(XY) - μxμy
④ 성질 2. X = Y이면 COV(X, Y) = VAR(X)
⑤ 성질 3. X와 Y가 독립이면 COV(X, Y) = 0
○ 유도 : COV(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0
○ 독립은 더 엄격한 조건이기 때문에 COV(X, Y) = 0이라고 하여 X와 Y가 독립이라고 단정할 수 없음
⑥ 성질 4. COV(aX + b, cY + d) = ac COV(X, Y)
⑦ 성질 5. COV(a1 X1 + a2 X2, Y) = a1 COV(X1, Y) + a2 COV(X2, Y)
⑧ 한계 : 성질 4에 의해 공분산은 연관성과 크기 정보를 모두 포함하므로 연관성만을 말할 수 없음
⑵ 피어슨 상관계수(Pearson correlation coefficient) : 단순히 상관계수라고도 함
① 정의 : X와 Y의 표준편차 σx, σy에 대해,
○ 다중상관계수 : 변수가 3개 이상일 때 상관계수를 나타낸 것
○ 완전상관(complete correlation) : ρ = 1
○ 상관 없음(no correlation) : ρ = 0
② 도입배경 : 크기 정보를 제외하고 연관성 정보만 나타내기 위함. 공분산의 한계와 관련
③ 특징
○ 등간, 비율척도로 측정된 두 변수들의 상관관계
○ 연속형 변수를 대상으로 함
○ 정규성 가정
○ 대부분 많이 사용
④ 성질 1. -1 ≤ ρ(X, Y) ≤ 1 (correlation inequality)
○ 증명 : 코시-슈바르츠 부등식
○ ρ(X, Y) = 1 : X와 Y는 완전 비례관계
○ ρ(X, Y) = -1 : X와 Y는 완전 반비례관계
○ ρ(X, Y) = 0이라고 X와 Y가 독립인 것은 아님
○ 반례 1. p(x) = ⅓ I{x = -1, 0, 1} , Y = X2
○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = E(X3) = 0
○ p(1, 1) = ⅓, p(x = 1) = ⅓, p(y = 1) = ⅔이므로, p(x, y) ≠ p(x) × p(y)
○ 독립의 정의 불성립
○ 반례 2. S ={(x, y) | -1 ≤ x ≤ 1, x2 ≤ y ≤ x2 + 1/10}, p = 5 I{(x, y) ∈ S}
○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = 0
○ 일정 = p(x, y) = p(x) × p(y)이라는 독립의 정의에서 p(x)는 일정하지만 p(y)는 일정하지 않음
○ 독립의 정의 불성립
⑤ 성질 2. ρ(X, X) = 1, ρ(X, -X) = -1
⑥ 성질 3. ρ(X, Y) = ρ(Y, X)
⑦ 성질 4. 크기 정보 제외 : ρ(aX + b, cY + d) = ρ(X, Y)
○ 유도 : ρ(aX + b, cY + d) = COV(aX + b, cY + d) ÷ aσx ÷ cσy = COV(X, Y) ÷ σxσy = ρ(X, Y)
⑧ 성질 5. 연관성 정보 : | ρ(X, Y) | = 1과 Y = aX + b, (a ≠ 0, b는 상수)는 필요충분조건
○ 정방향 증명 : Z 설정에 대한 아이디어는 단순회귀분석에서 유래
○ 역방향 증명
○ 귀무가설 H0 : 상관계수 = 0
○ 대립가설 H1 : 상관계수 ≠ 0
○ t 통계량 계산 : 표본으로부터 얻은 상관계수 r에 대하여,
○ 위 통계량은 자유도가 n-2인 student t 분포를 따름 (단, 샘플의 개수를 n이라고 가정)
○ cor(x, y)
○ cor(x, y, method = "pearson")
○ cor.test(x, y)
○ cor.test(x, y, method = "pearson")
⑶ Spearman 상관계수(Spearman correlation coefficient)
① 정의 : x' = rank(x)와 y' = rank(y)에 대해 다음과 같이 정의
② 특징
○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식
○ 순서형 변수를 대상으로 하는 비모수적 방법
○ 제로가 많은 데이터에 유리함
○ 데이터 내 편차나 에러에 민감
○ 켄달 상관계수보다 높은 값을 가짐
○ cor(x, y, method = "spearman")
○ cor.test(x, y, method = "spearman")
⑷ Kendall 상관계수(Kendall correlation coefficient)
① 정의 : concordant pair와 discordant pair에 대해 상관계수를 정의
② 특징
○ 서열 척도인 두 변수들의 상관관계를 측정하는 방식
○ 순서형 변수를 대상으로 하는 비모수적 방법
○ 제로가 많은 데이터에 유리함
○ 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용함
③ 절차
○ step 1. x 값에 대한 오름차순으로 y 값을 정렬 : 각 y 값을 yi로 표기
○ step 2. 각 yi 값에 대하여 yj > yi (단, j > i)인 concordant piar의 개수를 셈
○ step 3. 각 yi 값에 대하여 yj < yi (단, j > i)인 discordant pair의 개수를 셈
○ step 4. 상관계수 정의
○ nc : total number of concordnat pairs
○ nd : total number of discordant pairs
○ n : size of x and y
○ cor(x, y, method = "kendall")
○ cor.test(x, y, method = "kendall")
⑸ Matthew correlation coefficient (MCC)
⑹ χ2 : 근사의 적합성을 나타내는 척도
① 측정데이터를 xm, ym, 근사함수를 f(x)라 하면
② 근사함수를 구할 때 χ2의 미분을 통한 극소점 계산을 거침
③ 2차 근사함수와 같은 비선형 회귀에서 사용
4. Anscombe's Quartet [목차]
⑴ 평균, 표준편차, 상관계수로는 주어진 데이터의 개형을 설명할 수 없음을 보여줌
⑵ 예시 1
⑶ 예시 2
Figure. 2. Anscombe's Quartet
5. 순서통계량(order statistic) [목차]
⑴ 가정 : Xi와 Xj는 독립
⑵ 정의 : X1, ···, Xn을 재배열하여 Y1 < ··· < Yn이 되도록 Yi를 설정
⑶ 결합확률분포
⑷ 주변확률분포
⑸ 기댓값
6. 조건부 통계량 [목차]
⑴ 조건부 기댓값(conditional expectation)
① 정의
② 성질
○ E(XY | Y) = YE(X | Y)
○ E(aX1 + bX2 | Y) = aE(X1 | Y) + b(X2 | Y)
③ 반복 기댓값의 법칙(law of iterated expectation)
○ 정리
○ 증명
○ 예제
[0, ℓ]을 균일분포로 임의로 한 지점(Y)을 선택한 뒤, [0, y]을 균일분포로 임의로 한 지점(X)을 선택 시
④ 평균독립(mean independence)
독립 ⊂ 평균독립 ⊂ 비상관성(uncorrelatedness)
○ 평균독립
○ 비상관성 : 상관계수가 0인 경우
○ (참고) 정규분포 : X와 Y가 jointly normal이고 uncorrelated이면 X와 Y는 독립
⑤ (참고) 단순회귀분석
⑵ 조건부 분산(conditional variance)
① 정의 : 주어진 확률변수 X에 대해 Y의 조건부 분산
② 전분산의 정리(law of total variance, decomposition of variance)
○ 정리
○ 증명
○ 의미
○ 상황 : X ~ P1(θ), Y ~ P2(X)일 때
○ VAR(Y | X), E(Y | X) 계산 시 P2를 이용
○ E{·}, VAR{·} 계산 시 P1을 이용
○ (참고) E(VAR(X | Y)) : 그룹 내 분산 (intra-group variance)
○ (참고) VAR(E(X | Y)) : 그룹 간 분산 (inter-group variance)
○ 예제
○ X : 해고된 노동자의 실업기간
○ X의 확률밀도 : 지수분포
○ 전체 노동자의 20% : 숙련노동자. λ = 0.4
○ 전체 노동자의 80% : 미숙련노동자. λ = 0.1
○ VAR(X)의 계산
입력 : 2019.06.17 14:15
'▶ 자연과학 > ▷ 통계학' 카테고리의 다른 글
【통계학】 7강. 연속확률분포 (0) | 2019.06.16 |
---|---|
【통계학】 6강. 이산확률분포 (0) | 2019.06.16 |
【통계학】 4강. 확률변수와 분포 (0) | 2019.06.16 |
【통계학】 3강. 확률공간 (0) | 2019.06.16 |
【통계학】 12강. 오차해석 (오차이론) (0) | 2019.04.13 |
최근댓글