【통계학】 통계학 요점 정리

통계학 요점 정리

추천글 : 【통계학】 통계학 목차

1. 데이터, 정보, 지식

⑴ 데이터 : 주어진 자료

⑵ 정보 : 데이터의 이름

⑶ 지식 : 정보와 정보의 관계

2. 비율척도, 구간척도, 순서척도, 명목척도

⑴ 비율척도 : 절대영점 존재. 비율 개념 존재. 절대영도 등

⑵ 구간척도 : 절대영점 부존재. 비율 개념 부존재. 섭씨온도 등

⑶ 순서척도 : 순서 개념

⑷ 명목척도 : 성별 등

3. 가설연역법과 데이터 과학의 차이점

⑴ 가설연역법은 선 가설설정 후 실험

⑵ 데이터 과학은 선 실험 후 가설설정

4. 정확도와 정밀도

⑴ 정확도는 표본평균이 모평균에 얼마나 가까운지에 대한 개념

⑵ 정밀도는 표본의 분산이 얼마나 작은지에 대한 개념

5. 교락효과

⑴ 제3의 요인이 조작변인과 종속변인에 모두 영향을 미치는 것

⑵ 상관관계가 인과관계를 의미하지 않는 이유

6. batch effect의 의미

⑴ 올바르지 못한 반복실험

⑵ batch에 가해지는 통제변인이 제대로 통제되지 못해 잘못된 통계적 결론이 유도되는 것

7. 측정실험과 조작실험의 의미

⑴ 측정실험은 실험자가 조건을 바꾸지 않고 가설을 검정하는 것. 데이터 과학에 적용

⑵ 조작실험은 실험자가 조건을 바꿔서 가설을 검정하는 것. 일반적인 과학적 방법론에 적용

8. 반복실험과 반복측정의 차이

⑴ 반복실험은 정확도와 관련된 개념. 신약 검정에서 여러 환자들을 테스트하는 것

⑵ 반복측정은 정밀도와 관련된 개념. 신약 검정에서 동일 환자를 여러 번 테스트하는 것

9. mean, median 비교

⑴ 왼쪽이 median, 오른쪽이 mean

⑵ median을 기준으로 양쪽의 넓이가 같아야 함

10. 분위수 대 분위수 그래프

11. 독립의 의미

⑴ 한 변수에 대한 정보가 다른 변수에 대한 어떤 정보도 제공하지 않는 것

⑵ P(X = x, Y = y) = P(X = x) × P(Y = y)

12. 중심극한법칙

모집단의 분포와 관계없이 표본평균의 분포는 정규분포를 따름

13. chi-square goodness-of-fit test

14. chi-square independence test

15. t 분포의 특징

⑴ 표준정규분포보다 뚱뚱함

16. 대립가설을 정할 때 주의사항

⑴ 반증가능성이 있어야 함

17. parametic testing과 non-parametic testing

⑴ parametic testing

① 일반적으로 표본들의 분포가 정규분포를 따르는 경우

② parameter를 통해 p-value 계산

⑵ non-parametic testing

① 일반적으로 표본들의 분포가 정규분포를 따르지 않는 경우

② parameter 없이 p-value 계산

18. 단측검정을 하는 이유

⑴ 상황 : 한쪽이 아니라는 자기 확신이 있을 때

⑵ 장점 : 제2종 오류를 줄일 수 있음

① 제2종 오류 : 대립가설이 참일 때 귀무가설을 채택하는 오류

② 실험자 입장에서 원하는 결론을 볼 가능성이 있음

⑶ 단점 1. 잘못된 통계적 결론을 낼 수 있음 : p-value가 underestimate됨

⑷ 단점 2. 자기 확신에 대한 설득을 해야 함

19. 실험설계 : 신발 실험

⑴ 왼쪽 신발과 오른쪽 신발은 형태와 용례가 많이 다른데 이를 어떻게 비교할 것인지가 문제가 됨

20. 실험설계

⑴ 문제 : genetic diversity group에 실험하는 게 맞는지 아니면 genetic unified group에 실험하는 게 맞는지

⑵ 답안 : genetic diversity group

① 실제로 임상에서 적용되는 상황은 genetic diversity group임 : genetic unified group에서 얻어진 결론의 실효성 문제

② 사후검정을 통해 genetic diversity group에서 유의미한 결론을 얻을 수 있음 : 이후 가설연역법 적용

21. 검정력

⑴ 검정력을 높이는 것은 α가 일정할 때 p value가 더 작게 나오는 통계 기법을 사용한다는 의미

⑵ 예 1. t 분포는 자유도가 높을수록 검정력이 높음

① 자유도가 높을수록 t 분포는 정규분포와 유사해짐

② 자유도가 높을수록 t 분포의 폭이 좁아져서 검정력이 높아짐

⑶ 예 2. 대응표본검정보다 이표본검정의 검정력이 높음

① 대응표본검정 : 사실상 변수가 하나임. 자유도는 n-1

② 이표본검정 : 변수가 두 개임. 자유도는 n+m-2

③ t 분포에서 자유도가 증가하면 검정력이 늘어나므로 이표본 검정의 검정력이 높음

⑷ 예 3. 이표본검정 중 등분산 가정이 없을 때보다 등분산 가정이 있을 때 검정력이 높음

① 등분산 가정이 있을 때 자유도

② 등분산 가정이 없을 때 자유도

⑸ 예 4. 회귀분석에서 t 검정보다 F 검정이 검정력이 더 높음

⑹ 예 5. 평행성을 만족하는 자료에서 각 회귀선의 y절편을 비교하는 것보다 ANCOVA를 하는 게 검정력이 높음

① y 절편의 비교는 샘플 사이즈가 한 표본집단의 샘플 사이즈 수준

② ANCOVA는 전체 에러 텀을 가지고 계산하므로 샘플 사이즈가 한 표본집단의 샘플 사이즈의 두 배 수준

22. 여러 개의 집단이 있을 때 pairwise t-test를 하면 안 되는 이유

제1종 오류의 누적으로 인해 별로 차이가 나지 않는 두 그룹에도 차이가 난다고 결론지을 가능성이 높음

23. ANOVA 분석의 가정

⑴ 정규성 : 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨

⑵ 독립성 : 모든 데이터는 모집단들로부터 독립적으로 추출됨

⑶ 등분산성 : 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨

24. 강건성의 의미

많은 샘플수, 카테고리 내 동일 반복수 등을 만족 시 이분산성, 비정규성에서도 통계적 결론(귀무가설을 인용하거나 기각)이 달라지지 않는 것

25. 선형상관의 가정

⑴ 임의 추출된 자료

⑵ 각 변수는 정규분포를 따르는 모집단에서 추출됐을 것

⑶ 관계가 선형으로 나타남

26. 상관관계와 회귀분석의 차이점

⑴ 상관관계는 단순히 변수들간의 관계의 정도를 나타낸 것

⑵ 회귀분석은 종속변수에 대한 독립변수의 인과관계를 나타낸 것. 예측이 목적이기 때문에 실제 인과관계를 입증하지 않아도 됨

27. 회귀모형의 가정

⑴ Y값은 정규성과 등분산성을 만족하는 모집단으로부터 측정된 것으로 가정

⑵ 독립변수 X는 오차 없이 측정되었다고 가정 : 실제적으로 만족하기 어려움

⑶ 종속변수는 독립변수에 의해서 결정된다고 가정

⑷ X와 Y의 관계가 선형이라는 가정

28. 다중공선성의 의미

다중선형회귀분석에서 둘 또는 그 이상의 독립변수가 강한 상관관계를 갖는 것. 각 회귀변수의 계수의 표준오차가 커지는 문제를 낳는다.

29. ANCOVA의 가정

⑴ 등분산성(homoscedasticity)

⑵ 독립성(independency)

⑶ 정규성(normality)

⑷ 공변량(covariate)과 종속변수의 관계가 선형일 것

⑸ 평행성(parallelism)

30. ANCOVA의 과정

⑴ 1^st. 독립변수와 공변량의 상호작용이 통계적으로 유의하지 않음을 확인

⑵ 2^nd. 종속변수에 대한 공변량의 회귀선을 계산

⑶ 3^rd. 그 회귀선으로부터 y절편을 변경하여 각 독립변수의 level에서 제곱합이 최소가 되도록 하는 회귀선들을 계산

⑷ 4^th. 각 level의 회귀선으로부터 그 level 내 데이터들의 잔차들을 계산

⑸ 5^th. 전체 집단에 대한 공변량의 평균을 구한 뒤 그 값에 대한 각 회귀선의 함수값을 표준값으로 지정

⑹ 6^th. 각 level에 대해 표준값에서 앞서 구한 잔차들을 위아래로 표시

⑺ 7^th. 보정된 데이터 하에서 ANOVA를 수행

31. 평행성의 의미

⑴ 예를 들면 오염된 광산 지역과 그렇지 않은 지역 각각의 회귀선을 계산 시 기울기가 같을 것을 지칭

⑵ 만일 평행성이 만족하지 않으면 하나의 선택된 값(예 : 나이의 전체 평균)에 대해 차이를 비교하는 것은 공변량의 범위 전체를 대표할 수 없음

32. 머신러닝에서 오버피팅을 시키면 안되는 이유

⑴ 오버피팅을 시키면 표본의 부정확성까지 학습을 하여 예측확률이 떨어짐

⑵ 실제 머신러닝에서는 매 스텝마다 에러를 의도적으로 입력함

입력 : 2019.12.10 00:07

저작자표시

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

【통계학】 전하는 말 (0)	2020.03.24
【통계학】 20강. 회귀분석의 분산분석 (0)	2019.12.07
【통계학】 19강. 고급 회귀분석 (0)	2019.11.26
【통계학】 16강. 선형 회귀분석 (0)	2019.11.24
【통계학】 1-1강. 분위수 대 분위수 플롯(Q-Q plot) (0)	2019.10.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

정빈이의 공부방

최근댓글

【통계학】 통계학 요점 정리

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

【통계학】 통계학 요점 정리

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

'▶ 자연과학/▷ 조합론·통계학' 관련 포스팅

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역