본문 바로가기

Contact English

【통계학】 통계학 요점 정리

 

통계학 요점 정리

 

추천글 : 【통계학】 통계학 목차 


 

1. 데이터, 정보, 지식

⑴ 데이터 : 주어진 자료

⑵ 정보 : 데이터의 이름

⑶ 지식 : 정보와 정보의 관계 

 

 

2. 비율척도, 구간척도, 순서척도, 명목척도

⑴ 비율척도 : 절대영점 존재. 비율 개념 존재. 절대영도 등

⑵ 구간척도 : 절대영점 부존재. 비율 개념 부존재. 섭씨온도 등

⑶ 순서척도 : 순서 개념 

⑷ 명목척도 : 성별 등

 

 

3. 가설연역법과 데이터 과학의 차이점

⑴ 가설연역법은 선 가설설정 후 실험

⑵ 데이터 과학은 선 실험 후 가설설정

 

 

4. 정확도와 정밀도 

⑴ 정확도는 표본평균이 모평균에 얼마나 가까운지에 대한 개념

⑵ 정밀도는 표본의 분산이 얼마나 작은지에 대한 개념 

 

 

5. 교락효과 

⑴ 제3의 요인이 조작변인과 종속변인에 모두 영향을 미치는 것 

⑵ 상관관계가 인과관계를 의미하지 않는 이유 

 

 

6. batch effect의 의미 

⑴ 올바르지 못한 반복실험

⑵ batch에 가해지는 통제변인이 제대로 통제되지 못해 잘못된 통계적 결론이 유도되는 것 

 

 

7. 측정실험과 조작실험의 의미

⑴ 측정실험은 실험자가 조건을 바꾸지 않고 가설을 검정하는 것. 데이터 과학에 적용

⑵ 조작실험은 실험자가 조건을 바꿔서 가설을 검정하는 것. 일반적인 과학적 방법론에 적용

 

 

8. 반복실험과 반복측정의 차이 

⑴ 반복실험은 정확도와 관련된 개념. 신약 검정에서 여러 환자들을 테스트하는 것 

⑵ 반복측정은 정밀도와 관련된 개념. 신약 검정에서 동일 환자를 여러 번 테스트하는 것

 

 

9. mean, median 비교

 

 

⑴ 왼쪽이 median, 오른쪽이 mean

⑵ median을 기준으로 양쪽의 넓이가 같아야 함

 

 

10. 분위수 대 분위수 그래프

 

 

11. 독립의 의미 

⑴ 한 변수에 대한 정보가 다른 변수에 대한 어떤 정보도 제공하지 않는 것

⑵ P(X = x, Y = y) = P(X = x) × P(Y = y)

 

 

12. 중심극한법칙

모집단의 분포와 관계없이 표본평균의 분포는 정규분포를 따름

 

 

13. chi-square goodness-of-fit test

 

 

 

14. chi-square independence test

 

 

 

15. t 분포의 특징

⑴ 표준정규분포보다 뚱뚱함

 

 

16. 대립가설을 정할 때 주의사항 

⑴ 반증가능성이 있어야 함

 

 

17. parametic testing과 non-parametic testing

⑴ parametic testing

① 일반적으로 표본들의 분포가 정규분포를 따르는 경우

② parameter를 통해 p-value 계산

⑵ non-parametic testing

① 일반적으로 표본들의 분포가 정규분포를 따르지 않는 경우

② parameter 없이 p-value 계산

 

 

18. 단측검정을 하는 이유

⑴ 상황 : 한쪽이 아니라는 자기 확신이 있을 때

⑵ 장점 : 제2종 오류를 줄일 수 있음

① 제2종 오류 : 대립가설이 참일 때 귀무가설을 채택하는 오류 

② 실험자 입장에서 원하는 결론을 볼 가능성이 있음 

⑶ 단점 1. 잘못된 통계적 결론을 낼 수 있음 : p-value가 underestimate됨

 단점 2. 자기 확신에 대한 설득을 해야 함

 

 

19. 실험설계 : 신발 실험

⑴ 왼쪽 신발과 오른쪽 신발은 형태와 용례가 많이 다른데 이를 어떻게 비교할 것인지가 문제가 됨

 

 

20. 실험설계 

⑴ 문제 : genetic diversity group에 실험하는 게 맞는지 아니면 genetic unified group에 실험하는 게 맞는지

⑵ 답안 : genetic diversity group

① 실제로 임상에서 적용되는 상황은 genetic diversity group임 : genetic unified group에서 얻어진 결론의 실효성 문제

② 사후검정을 통해 genetic diversity group에서 유의미한 결론을 얻을 수 있음 : 이후 가설연역법 적용

 

 

21. 검정력

⑴ 검정력을 높이는 것은 α가 일정할 때 p value가 더 작게 나오는 통계 기법을 사용한다는 의미

예 1. t 분포는 자유도가 높을수록 검정력이 높음

① 자유도가 높을수록 t 분포는 정규분포와 유사해짐

② 자유도가 높을수록 t 분포의 폭이 좁아져서 검정력이 높아짐

⑶ 예 2. 대응표본검정보다 이표본검정의 검정력이 높음

① 대응표본검정 : 사실상 변수가 하나임. 자유도는 n-1

② 이표본검정 : 변수가 두 개임. 자유도는 n+m-2

③  t 분포에서 자유도가 증가하면 검정력이 늘어나므로 이표본 검정의 검정력이 높음

예 3. 이표본검정 중 등분산 가정이 없을 때보다 등분산 가정이 있을 때 검정력이 높음

① 등분산 가정이 있을 때 자유도

 

 

② 등분산 가정이 없을 때 자유도

 

 

⑸ 예 4. 회귀분석에서 t 검정보다 F 검정이 검정력이 더 높음

⑹ 예 5. 평행성을 만족하는 자료에서 각 회귀선의 y절편을 비교하는 것보다 ANCOVA를 하는 게 검정력이 높음 

① y 절편의 비교는 샘플 사이즈가 한 표본집단의 샘플 사이즈 수준

② ANCOVA는 전체 에러 텀을 가지고 계산하므로 샘플 사이즈가 한 표본집단의 샘플 사이즈의 두 배 수준

 

 

22. 여러 개의 집단이 있을 때 pairwise t-test를 하면 안 되는 이유

제1종 오류의 누적으로 인해 별로 차이가 나지 않는 두 그룹에도 차이가 난다고 결론지을 가능성이 높음

 

 

23. ANOVA 분석의 가정

⑴ 정규성 : 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨

⑵ 독립성 : 모든 데이터는 모집단들로부터 독립적으로 추출됨

⑶ 등분산성 : 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨

 

 

24. 강건성의 의미

많은 샘플수, 카테고리 내 동일 반복수 등을 만족 시 이분산성, 비정규성에서도 통계적 결론(귀무가설을 인용하거나 기각)이 달라지지 않는 것

 

 

25. 선형상관의 가정

⑴ 임의 추출된 자료

⑵ 각 변수는 정규분포를 따르는 모집단에서 추출됐을 것

⑶ 관계가 선형으로 나타남 

 

 

26. 상관관계와 회귀분석의 차이점

⑴ 상관관계는 단순히 변수들간의 관계의 정도를 나타낸 것

⑵ 회귀분석은 종속변수에 대한 독립변수의 인과관계를 나타낸 것. 예측이 목적이기 때문에 실제 인과관계를 입증하지 않아도 됨

 

 

27. 회귀모형의 가정 

⑴  Y값은 정규성과 등분산성을 만족하는 모집단으로부터 측정된 것으로 가정

⑵ 독립변수 X는 오차 없이 측정되었다고 가정 : 실제적으로 만족하기 어려움

⑶ 종속변수는 독립변수에 의해서 결정된다고 가정

⑷ X와 Y의 관계가 선형이라는 가정 

 

 

28. 다중공선성의 의미

다중선형회귀분석에서 둘 또는 그 이상의 독립변수가 강한 상관관계를 갖는 것. 각 회귀변수의 계수의 표준오차가 커지는 문제를 낳는다.

 

 

29. ANCOVA의 가정

 등분산성(homoscedasticity)

⑵ 독립성(independency)

⑶ 정규성(normality)

⑷ 공변량(covariate)과 종속변수의 관계가 선형일 것

⑸ 평행성(parallelism)

 

 

30. ANCOVA의 과정

 1st. 독립변수와 공변량의 상호작용이 통계적으로 유의하지 않음을 확인

⑵ 2nd. 종속변수에 대한 공변량의 회귀선을 계산

⑶ 3rd. 그 회귀선으로부터 y절편을 변경하여 각 독립변수의 level에서 제곱합이 최소가 되도록 하는 회귀선들을 계산

⑷ 4th. 각 level의 회귀선으로부터 그 level 내 데이터들의 잔차들을 계산

⑸ 5th. 전체 집단에 대한 공변량의 평균을 구한 뒤 그 값에 대한 각 회귀선의 함수값을 표준값으로 지정

⑹ 6th. 각 level에 대해 표준값에서 앞서 구한 잔차들을 위아래로 표시

⑺ 7th. 보정된 데이터 하에서 ANOVA를 수행 

 

 

31. 평행성의 의미

 예를 들면 오염된 광산 지역과 그렇지 않은 지역 각각의 회귀선을 계산 시 기울기가 같을 것을 지칭

⑵ 만일 평행성이 만족하지 않으면 하나의 선택된 값(예 : 나이의 전체 평균)에 대해 차이를 비교하는 것은 공변량의 범위 전체를 대표할 수 없음

 

 

32. 머신러닝에서 오버피팅을 시키면 안되는 이유

⑴ 오버피팅을 시키면 표본의 부정확성까지 학습을 하여 예측확률이 떨어짐 

⑵ 실제 머신러닝에서는 매 스텝마다 에러를 의도적으로 입력함

 

입력 : 2019.12.10 00:07