일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 스토어드 프로시저
- PRIMARY KEY
- 오블완
- R
- Github
- 런던
- 유럽여행
- PRML
- 제주2주살이
- 티스토리챌린지
- 스플라인
- 독후감
- 디지털마케팅
- SQL
- Linux
- 보조인덱스
- 에이바우트
- 혼공S
- 김호연작가
- RStudio
- Jupyter notebook
- 제주도
- 제주도여행
- 클러스터형인덱스
- 혼자공부하는SQL
- 맛집
- 책리뷰
- 영국여행
- digital marketing
- GenAI
- Today
- Total
Soy Library
[통계분석방법론] 기초 통계 지식 본문
통계 전공자들은 수십 개의 통계 과목을 이수하면서 그에 따른 분석방법을 배운다. 이러한 통계적 방법들이 의학연구를 비롯한 다양한 연구에서 많이 사용된다. 따라서 통계 전공자들은 연구 분석을 하기 위해 연구에 사용되는 자료의 특성을 파악하고 어떤 분석 방법이 필요가 되는지 알아야 할 것이다.
가설검정의 원리
가설검정(hypothesis testing)은 모수(parameter)에 대한 가설의 옳고 그름을 판단하는 절차이다. 이때 모수(parameter)란 실험 대상이 되는 모집단(population)에서 우리가 관심 있어하는 값으로 모집단의 특성을 나타낸다. 대표적으로 모평균, 모 분산, 모비율 등이 있다. 현실적으로 모집단의 대상 전체를 조사하기가 불가능하기 때문에 우리는 랜덤 표본을 뽑아 모집단에 대한 정보를 요약하고 그 표본을 이용해 가설검정을 하는 것이다.
가설에는 귀무가설(Null hypothesis, $H_0$)와 대립가설(Alternative hypothesis, Research hypothesis, $H_1$)이 있다. 연구자가 이 연구에서 보이고자 하는 주장은 대립가설에 놓고 그에 반하는 주장을 귀무가설에 놓는다. 따라서 연구에서 대립가설을 입증할 강력한 증거가 있을 때 대립가설을 채택하고(Accept $H_1$ = Reject $H_0$) 그렇지 않으면 대립가설을 채택하지 않는다(Do not accept $H_1$ = Do not reject $H_0$). 우리는 연구에서 귀무가설을 입증하는 게 아니기 때문에 귀무가설에 대해서는 '채택한다'라는 말을 쓰지 않는다.
오류의 종류
우리는 표본을 가지고 모집단에 대해 검정하는 것이기 때문에 오류에 대한 가능성을 배제할 수 없다. 다음과 같은 오류가 발생할 수 있다.
$H_0$ False (유죄) | $H_0$ True (무죄) | |
Reject $H_0$ (유죄 판결) | 옳은 결정 | 제1종오류 (Type I error) |
Do not reject $H_0$ (무죄 판결) | 제2종오류 (Type II error) | 옳은 결정 |
예를 들어 유죄와 무죄를 판결하는 경우를 생각해보자. 우리가 기본적으로 주장해야 하는 것은 '유죄'이기 때문에 이를 대립가설에 놓는다. 따라서, 다음과 같이 가설을 세울 수 있다.
$H_0$ : 무죄이다.
$H_1$ : 유죄이다.
그리고 생각해보았을 때, 유죄인데 무죄라고 판결을 내리는 것과 무죄인데 유죄로 판결을 내리는 것 중 어떤 결정이 더 심각한 사안일까? 후자일 것이다. 이렇게 귀무가설이 사실인데 귀무가설을 기각하는 오류를 제1종 오류(Type I error)라고 하고, 우리는 연구에 있어서 이 오류의 최대 한계치를 주는 방향을 생각해보는 것이다.
제1종오류의 최대 한계치를 유의수준(significance level)이라고 하고 보통 $\alpha$로 표기한다. (여기서 제1종 오류가 곧 $\alpha$라고 생각하진 말자. 유의수준 $\alpha$는 오류의 최대 허용치이고 제1종 오류는 그냥 오류의 한 종류이다. 우리가 실험에 있어서 그 한계치를 다 쓰는 것이기 때문에 제1종 오류의 값이 곧 $\alpha$와 같은 것뿐이다.) 그리고 제2종 오류를 보통 $\beta$라고 표기하면, 이때 $1-\beta$는 귀무가설이 사실이 아닌데 귀무가설을 기각하게 될 옳은 결정을 할 확률로써 검정력(power)이라고 부른다. 즉, 얼마나 이 검정을 잘하냐에 대한 확률이라고 말할 수도 있겠다.
가설 검정에서 p-value(p값, 유의확률, observed significant level)는 귀무가설 하에서 관측된 사건 이상으로 귀무가설에 반하는 사건이 일어날 확률을 말하며, p-value가 작을수록 귀무가설에 반대되는 강한 증거가 된다. (개인적으로는 귀무가설이 참이라고 가정했을 때, 관측된 사건이 정말 그 귀무가설 하의 분포에 속하게 되는지에 대한 확률값이라고 해석한다.)
가설의 종류
가설의 종류는 크게 단측검정(one-sided test)과 양측검정(two-sided test) 이 두 가지로 나뉜다.
1. 단측검정 : 연구자가 주장하는 바가 한 방향일 때
$H_0$ : 신약의 치료효과는 기존의 약과 차이가 없거나 더 못하다. ($p_1 \le p_0$)
$H_1$ : 신약의 치료효과가 기존의 약보다 좋다. ($p_1 > p_0$)
2. 양측검정 : 연구자가 주장하는 바가 양방향일 때
$H_0$ : 신약과 기존의 약의 치료효과는 같다. ($p_1 = p_0$)
$H_1$ : 신약과 기존의 약의 치료효과는 같지 않다. ($p_1 \neq p_0$)
연구자료의 유형
데이터는 크게 질적 자료(qualitative data)와 양적 자료(quantitative data)로 분류할 수 있다. 질적 자료를 범주형 자료(categorical data), 양적 자료를 수치 자료(numerical data)로 표현하기도 한다. 질적 자료에는 명목형 자료(nominal data)와 순서형 자료(ordinal data)가 있고 양적 자료에는 이산형 자료(discrete data) 연속형 자료(continuous data)가 있다.
References
생명과학연구를 위한 통계적 방법, 이재원/박미라/유한나, 2005
'Study > Statistics' 카테고리의 다른 글
[개념] Necessity and sufficiency (0) | 2021.11.28 |
---|---|
[논문리뷰] [Xuming He, Pin Ng, 1999] COBS: qualitative constrained smoothing via linear programming (0) | 2021.10.13 |
[통계계산방법론] Gaussian Elimination Algorithm과 Cholesky Algorithm (0) | 2020.04.30 |
[통계계산방법론] RIDGE 와 LASSO (0) | 2020.04.25 |