컴공생의 다이어리
중심위치 척도(Measure of Location) - 평균(Mean), 중앙값(Median), 최빈값(Mode), 사분위수(Quartile) 본문
중심위치 척도(Measure of Location) - 평균(Mean), 중앙값(Median), 최빈값(Mode), 사분위수(Quartile)
컴공 K 2021. 4. 9. 00:01중심위치 척도(Measure of Location)란?
- 자료들이 대략 어떠한 값을 갖는지를 알아보기 위해, 어느 위치를 중심으로 자료들이 분포되어 있는지를 나타내는 척도
- 평균(Mean)
- 중앙값, 중위수(Median)
- 최빈값(Mode)
- 사분위수(Quartile)
- 평균과 중앙값은 숫자형, 최빈값은 범주형과 숫자형에 다 사용
평균(Mean)
- 가장 많이 사용되는 중심위치 척도
- 자료의 값(value)을 모두 더하여 자료의 수(size)로 나눈 값
- 표본 평균(Sample mean) : 표본 자료의 평균(표본 자료의 개수 : n)
- 모집단 평균(Population mean) : 모집단 자료의 평균(모집단 자료의 개수 : N)
- 특잇값(이상치)이 있다면 절삭 평균을 이용
(절삭 평균을 사용한다면 양쪽에서 각각 같은 개수로 절삭해야 함)
중앙값(=중위수, Median)
- 자료의 크기에 따라 오름차순으로 정렬했을 때, 가운데에 해당하는 값
- 자료가 홀수인 경우 : 가운데 값
- 자료가 짝수인 경우 : 가운데 두개의 평균, (n/2, n/2+1)번째 값 평균
- 특이하게 작거나 큰 값이 자료에 있어도 영향을 받지 않게 됨 → 특잇값에 둔감
최빈값(Mode)
- 관측값 중에서 가장 자주 나오는, 빈도수가 최대인 값
- 명목형 자료의 경우, 평균과 중앙값은 의미가 없으므로 최빈값을 사용
- 연속형 자료의 경우 같은 값이 중보되어 나오는 경우가 매우 드묾
- 도수분포표로 자료를 그룹화하여 최대의 도수를 갖는 계급구간의 중간값을 최빈값으로 사용
- 자료가 적은 경우 최빈값은 무의미
- 최빈값은 여러 개가 나올 수 있음 → 중심위치 척도로써의 의미가 줆어듬
- 단봉형 분포에서 적절
왜도(Skewed)와 중심위치 척도
- 음의 왜도(Left skewed) : 평균<중앙값<최빈값
- 양의 왜도(Right skewed) : 최빈값<중앙값<평균
- 대칭(Symmetry) : 평균=중앙값=최빈값
사분위수(Quartile)
- 자료를 크기 순(오름차순)으로 정렬한 후 똑같은 크기의 네 덩어리로 만들 때 그 경계에 해당하는 값
- 자료의 1/4, 1/2, 3/4, 즉 하위에서 25%, 50%, 75%에 해당하는 값
- 제 2사분위수는 중앙값과 동일
출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
'확률및통계' 카테고리의 다른 글
연관성 척도(Measure of Association) - 공분산(Covariance), 상관계수(Correlation Coefficient) (0) | 2021.04.14 |
---|---|
변동성 척도(Measure of Variability:Spread) - 범위(Range), 사분위간 범위(IQR), 분산(Variance)과 표준편차(Standard Devication), 변동계수(Coefficient of Variation) (0) | 2021.04.10 |
수치 기술 통계(Numerical Descriptive Statistics)란? (0) | 2021.04.08 |
특잇값(Outlier)이란? (0) | 2021.04.05 |
산점도(Scatter Plot)란? (0) | 2021.04.04 |