14-2강. 단순 검정
추천글 : 【통계학】 14강. 통계적 검정
1. 부호 검정 [본문]
2. ROC 분석 [본문]
1. 부호 검정(sign test) [목차]
⑴ 개요
① 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법
② 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정
③ 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정만 필요함
⑵ 절차
① 단계 1. 표본 추출
○ 모집단에서 연속인 표본을 추출
○ 가정된 중위수 θ0와 같은 표본을 제외 후 남은 표본의 수가 n개일 때, 남은 표본을 X1, X2, ∙∙∙, Xn이라고 정의
② 단계 2. 검정 통계량
③ 단계 3. 유의수준 α에 대한 기각역
○ 귀무가설 : θ = θ0
○ 대립가설이 θ > θ0라면, 기각역은 B ≥ b(α, n, 1/2)
○ 대립가설이 θ < θ0라면, 기각역은 B ≤ b(α, n, 1/2)
○ 대립가설이 θ ≠ θ0라면, 기각역은 B ≥ b(α/2, n, 1/2) 또는 B < b(1 - α/2, b, 1/2)
2. ROC 분석(receiver operator characteristic) [목차]
⑴ 파라미터 정의
Table. 1. 혼동 행렬(confusion matrix)
① 참 긍정(TP, true positive) : 실제값이 true이고 측정값이 true인 경우. (주석) 진짜 포지티브란 의미
② 거짓 부정(FN, false negative) : 실제값이 true이고 측정값이 false인 경우. (주석) 가짜 네거티브란 의미
○ 스크리닝에서는 false negative가 적은 것이 중요함
③ 거짓 긍정(FP, false positive) : 실제값이 false이고 측정값이 true인 경우. (주석) 가짜 포지티브란 의미
○ 최종 진단에서는 false positive가 적은 것이 중요함
④ 참 부정(TN, true negative) : 실제값이 false이고 측정값이 false인 경우. (주석) 진짜 네거티브란 의미
⑤ 민감도(sensitivity; true positive rate, TPR) 혹은 재현율(recall) : TP / (TP + FN)
○ positive, negative의 의미를 거꾸로 뒤집으면 민감도가 특이도가 됨
⑥ 특이도(specificity) : TN / (TN + FP)
○ positive, negative의 의미를 거꾸로 뒤집으면 특이도가 민감도가 됨
⑦ 정확도(accuracy) : (TP + TN) / (TP + FN + FP + TN)
⑧ 오차비율(error rate) : 1 - 정확도
⑨ 정밀도(precision) 혹은 양성예측치(positive predictive value, PPV) : TP / (TP + FP)
⑨ 음성예측치(negative predictive value, NPV) : TN / (TN + FN)
⑩ 거짓 긍정률(FDR, false discovery rate, false positive rate) : FP / (TN + FP) = 1 - specificity
⑪ F1 지표(F1 score) : 2 × precision × recall / (precision + recall) = TP ÷ [ TP + (FN + FP)/2 ]
○ 정밀도와 민감도를 하나로 합한 성능평가 지표
○ 0 ~ 1 사이의 범위를 가짐
○ 정밀도와 민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐
⑫ 카파 통계량(kappa statistic, Cohen's kappa)
○ K : 카파 상관계수
○ Pr(a) : 예측이 일치할 확률
○ Pr(e) : 예측이 우연히 일치할 확률
○ 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
○ 0 ~ 1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 일치하며, 0에 가까울수록 불일치
○ 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명
⑬ Matthew correlation coefficient (MCC)
① 일반적으로 threshold를 조절하면 sensitivity와 specificity가 반대 경향을 보임
Figure. 1. threshold에 따른 sensitivity와 specificity의 추이
② 수신자 특성 곡선(ROC curve, receiver operating characteristic curve)
○ 정의 : 가로축을 1 - specificity (= FDR), 세로축을 sensitivity로 할 때 시각화한 그래프
○ 가장 이상적인 것은 민감도 1, 특이도 1인 경우
○ AUC(area under the curve; AUROC, area under the ROC curve) : 값의 범위는 0 ~ 1. 1에 가까울수록 response가 좋음
Figure. 3. AUC 계산 과정
Figure. 4. AUC 계산 과정
③ concordance index : AOC curve에서 area under curve를 의미
④ ROC가 랜덤인 경우 concordance index = 0.5
⑤ concordance는 1을 넘지 못함
⑥ AUPRC
○ AUROC를 계산할 때 sensitivity, specificity 대신 precision, recall을 이용하는 것
○ 양성 사례(클래스 1)와 음성 사례(클래스 2)의 수의 균형이 한쪽으로 치우쳐 있으면, AUC보다 AUPRC가 선호되는 지표
입력: 2021.04.13 15:22
'▶ 자연과학 > ▷ 통계학' 카테고리의 다른 글
【통계학】 17강. 비선형 회귀분석 (2) | 2021.12.11 |
---|---|
【통계학】 14-4강. 윌콕슨 순위 검정(Wilcoxon Rank Test) (3) | 2021.05.10 |
【통계학】 5-1강. 이미지 유사성 비교 : SSIM (2) | 2021.02.19 |
【통계학】 전하는 말 (0) | 2020.03.24 |
【통계학】 20강. 회귀분석의 분산분석 (0) | 2019.12.07 |
최근댓글