본문 바로가기

Contact English

【통계학】 14-2강. 단순 검정

 

14-2강. 단순 검정

 

추천글 : 【통계학】 14강. 통계적 검정  


1. 부호 검정 [본문]

2. ROC 분석 [본문]


 

1. 부호 검정(sign test) [목차]

⑴ 개요

① 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법

② 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정

③ 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정만 필요함 

⑵ 절차 

단계 1. 표본 추출

○ 모집단에서 연속인 표본을 추출 

○ 가정된 중위수 θ0와 같은 표본을 제외 후 남은 표본의 수가 n개일 때, 남은 표본을 X1, X2, ∙∙∙, Xn이라고 정의

단계 2. 검정 통계량 

 

 

단계 3. 유의수준 α에 대한 기각역

○ 귀무가설 : θ = θ0 

○ 대립가설이 θ > θ0라면, 기각역은 B ≥ b(α, n, 1/2)

○ 대립가설이 θ < θ0라면, 기각역은 B ≤ b(α, n, 1/2)

○ 대립가설이 θ ≠ θ0라면, 기각역은 B ≥ b(α/2, n, 1/2) 또는 B < b(1 - α/2, b, 1/2)

 

 

2. ROC 분석(receiver operator characteristic) [목차]

파라미터 정의

 

출처 : 이미지 클릭

Table. 1. 혼동 행렬(confusion matrix)

 

참 긍정(TP, true positive) : 실제값이 true이고 측정값이 true인 경우. (주석) 진짜 포지티브란 의미

거짓 부정(FN, false negative) : 실제값이 true이고 측정값이 false인 경우. (주석) 가짜 네거티브란 의미

○ 스크리닝에서는 false negative가 적은 것이 중요함

거짓 긍정(FP, false positive) : 실제값이 false이고 측정값이 true인 경우. (주석) 가짜 포지티브란 의미

○ 최종 진단에서는 false positive가 적은 것이 중요함

참 부정(TN, true negative) : 실제값이 false이고 측정값이 false인 경우. (주석) 진짜 네거티브란 의미

민감도(sensitivity; true positive rate, TPR) 혹은 재현율(recall) : TP / (TP + FN)

○ positive, negative의 의미를 거꾸로 뒤집으면 민감도가 특이도가 됨 

특이도(specificity) : TN / (TN + FP)

○ positive, negative의 의미를 거꾸로 뒤집으면 특이도가 민감도가 됨

정확도(accuracy) : (TP + TN) / (TP + FN + FP + TN)

⑧ 오차비율(error rate) : 1 - 정확도

정밀도(precision) 혹은 양성예측치(positive predictive value, PPV) : TP / (TP + FP)

⑨ 음성예측치(negative predictive value, NPV) : TN / (TN + FN)

거짓 긍정률(FDR, false discovery rate, false positive rate) : FP / (TN + FP) = 1 - specificity

F1 지표(F1 score) : 2 × precision × recall / (precision + recall) = TP ÷ [ TP + (FN + FP)/2 ]

○ 정밀도와 민감도를 하나로 합한 성능평가 지표

○ 0 ~ 1 사이의 범위를 가짐

○ 정밀도와 민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐 

⑫ 카파 통계량(kappa statistic, Cohen's kappa)

 

 

○ K : 카파 상관계수

○ Pr(a) : 예측이 일치할 확률

○ Pr(e) : 예측이 우연히 일치할 확률

○ 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법

○ 0 ~ 1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 일치하며, 0에 가까울수록 불일치

○ 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명

⑬ Matthew correlation coefficient (MCC)

 

 

concordance index

① 일반적으로 threshold를 조절하면 sensitivityspecificity가 반대 경향을 보임

 

Figure. 1. threshold에 따른 sensitivity와 specificity의 추이

 

② 수신자 특성 곡선(ROC curve, receiver operating characteristic curve)

○ 정의 : 가로축을 1 - specificity (= FDR), 세로축을 sensitivity로 할 때 시각화한 그래프 

 

 

출처 : 이미지 클릭

Figure. 2. ROC curve]

 

○ 가장 이상적인 것은 민감도 1, 특이도 1인 경우

AUC(area under the curve; AUROC, area under the ROC curve) : 값의 범위는 0 ~ 1. 1에 가까울수록 response가 좋음

 

출처 : 이미지 클릭

Figure. 3. AUC 계산 과정

출처 : 이미지 클릭

Figure. 4. AUC 계산 과정

 

③ concordance index : AOC curve에서 area under curve를 의미

④ ROC가 랜덤인 경우 concordance index = 0.5

⑤ concordance는 1을 넘지 못함

⑥ AUPRC

 AUROC를 계산할 때 sensitivity, specificity 대신 precision, recall을 이용하는 것

○ 양성 사례(클래스 1)와 음성 사례(클래스 2)의 수의 균형이 한쪽으로 치우쳐 있으면, AUC보다 AUPRC가 선호되는 지표

 

입력: 2021.04.13 15:22