【통계학】 14-2강. 단순 검정

14-2강. 단순 검정

추천글 : 【통계학】 14강. 통계적 검정

1. 부호 검정 [본문]

2. ROC 분석 [본문]

1. 부호 검정(sign test) [목차]

⑴ 개요

① 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법

② 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정

③ 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정만 필요함

⑵ 절차

① 단계 1. 표본 추출

○ 모집단에서 연속인 표본을 추출

○ 가정된 중위수 θ₀와 같은 표본을 제외 후 남은 표본의 수가 n개일 때, 남은 표본을 X₁, X₂, ∙∙∙, X_n이라고 정의

② 단계 2. 검정 통계량

③ 단계 3. 유의수준 α에 대한 기각역

○ 귀무가설 : θ = θ₀

○ 대립가설이 θ ＞ θ₀라면, 기각역은 B ≥ b(α, n, 1/2)

○ 대립가설이 θ ＜ θ₀라면, 기각역은 B ≤ b(α, n, 1/2)

○ 대립가설이 θ ≠ θ₀라면, 기각역은 B ≥ b(α/2, n, 1/2) 또는 B ＜ b(1 - α/2, b, 1/2)

2. ROC 분석(receiver operator characteristic) [목차]

⑴ 정확도 지표

Table. 1. 혼동 행렬(confusion matrix)

① 참 긍정(TP, true positive) : 실제값이 true이고 측정값이 true인 경우. (주석) 진짜 포지티브란 의미

② 거짓 부정(FN, false negative) : 실제값이 true이고 측정값이 false인 경우. (주석) 가짜 네거티브란 의미

○ 스크리닝에서는 false negative가 적은 것이 중요함

③ 거짓 긍정(FP, false positive) : 실제값이 false이고 측정값이 true인 경우. (주석) 가짜 포지티브란 의미

○ 최종 진단에서는 false positive가 적은 것이 중요함

④ 참 부정(TN, true negative) : 실제값이 false이고 측정값이 false인 경우. (주석) 진짜 네거티브란 의미

⑤ 민감도(sensitivity; true positive rate, TPR) 혹은 재현율(recall) : TP / (TP + FN)

○ positive, negative의 의미를 거꾸로 뒤집으면 민감도가 특이도가 됨

⑥ 특이도(specificity) : TN / (TN + FP)

○ positive, negative의 의미를 거꾸로 뒤집으면 특이도가 민감도가 됨

⑦ 정확도(accuracy) : (TP + TN) / (TP + FN + FP + TN)

⑧ 오차비율(error rate) : 1 - 정확도

⑨ 정밀도(precision) 혹은 양성예측치(positive predictive value, PPV) : TP / (TP + FP)

⑨ 음성예측치(negative predictive value, NPV) : TN / (TN + FN)

⑩ 거짓 긍정률(FDR, false discovery rate, false positive rate) : FP / (TN + FP) = 1 - specificity

⑪ F1 지표(F1 score) : 2 × precision × recall / (precision + recall) = TP ÷ [ TP + (FN + FP)/2 ]

○ 정밀도와 민감도를 하나로 합한 성능평가 지표

○ 0 ~ 1 사이의 범위를 가짐

○ 정밀도와 민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐

○ macro F1

○ 마이너 클래스에 메이저 클래스와 동일한 가중치를 부여

○ 클래스 간 균형/공정 비교가 중요할 때 사용

○ weighted F1

○ 전체 데이터 기준의 대표 성능을 보고 싶고 클래스 불균형이 클 때 사용

○ 대체로 macro F1보다 값이 큼

○ micro F1

○ TP/FP/FN을 전 클래스 합쳐 계산

○ 불균형의 영향을 사실상 무시 : 다수 클래스에 끌림

⑫ 카파 통계량(kappa statistic, Cohen's kappa)

○ K : 카파 상관계수

○ Pr(a) : 예측이 일치할 확률

○ Pr(e) : 예측이 우연히 일치할 확률

○ 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법

○ 0 ~ 1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 일치하며, 0에 가까울수록 불일치

○ 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명

⑬ Matthew correlation coefficient (MCC)

⑵ concordance index

① 일반적으로 threshold를 조절하면 sensitivity와 specificity가 반대 경향을 보임

Figure. 1. threshold에 따른 sensitivity와 specificity의 추이

② 수신자 특성 곡선(ROC curve, receiver operating characteristic curve)

○ 정의 : 가로축을 1 - specificity (= FDR), 세로축을 sensitivity로 할 때 시각화한 그래프

Figure. 2. ROC curve^]

○ 가장 이상적인 것은 민감도 1, 특이도 1인 경우

○ AUC(area under the curve; AUROC, area under the ROC curve) : 값의 범위는 0 ~ 1. 1에 가까울수록 response가 좋음

Figure. 3. AUC 계산 과정

Figure. 4. AUC 계산 과정

③ concordance index : AOC curve에서 area under curve를 의미

④ ROC가 랜덤인 경우 concordance index = 0.5

⑤ concordance는 1을 넘지 못함

⑥ AUPRC

○ AUROC를 계산할 때 sensitivity, specificity 대신 precision, recall을 이용하는 것

○ 양성 사례(클래스 1)와 음성 사례(클래스 2)의 수의 균형이 한쪽으로 치우쳐 있으면, AUC보다 AUPRC가 선호되는 지표

입력: 2021.04.13 15:22

저작자표시 (새창열림)

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

【통계학】 17강. 비선형 회귀분석 (2)	2021.12.11
【통계학】 14-8강. 윌콕슨 순위 검정(Wilcoxon Rank Test) (3)	2021.05.10
【통계학】 이미지 유사성 비교 : SSIM (2)	2021.02.19
【통계학】 전하는 말 (0)	2020.03.24
【통계학】 20강. 회귀분석의 분산분석 (0)	2019.12.07

정빈이의 공부방

최근댓글

【통계학】 14-2강. 단순 검정

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

티스토리툴바

【통계학】 14-2강. 단순 검정

'▶ 자연과학 > ▷ 조합론·통계학' 카테고리의 다른 글

'▶ 자연과학/▷ 조합론·통계학' 관련 포스팅

티스토리툴바