컴공생의 다이어리

중심위치 척도(Measure of Location) - 평균(Mean), 중앙값(Median), 최빈값(Mode), 사분위수(Quartile) 본문

확률및통계

중심위치 척도(Measure of Location) - 평균(Mean), 중앙값(Median), 최빈값(Mode), 사분위수(Quartile)

컴공 K 2021. 4. 9. 00:01

중심위치 척도(Measure of Location)란?

 - 자료들이 대략 어떠한 값을 갖는지를 알아보기 위해, 어느 위치를 중심으로 자료들이 분포되어 있는지를 나타내는 척도

  • 평균(Mean)
  • 중앙값, 중위수(Median)
  • 최빈값(Mode)
  • 사분위수(Quartile)

 - 평균과 중앙값은 숫자형, 최빈값은 범주형과 숫자형에 다 사용

 

 

평균(Mean)

 - 가장 많이 사용되는 중심위치 척도

 - 자료의 값(value)을 모두 더하여 자료의 수(size)로 나눈 값

 - 표본 평균(Sample mean) : 표본 자료의 평균(표본 자료의 개수 : n)

 - 모집단 평균(Population mean) : 모집단 자료의 평균(모집단 자료의 개수 : N)

 - 특잇값(이상치)이 있다면 절삭 평균을 이용

   (절삭 평균을 사용한다면 양쪽에서 각각 같은 개수로 절삭해야 함)

 

 

중앙값(=중위수, Median)

 - 자료의 크기에 따라 오름차순으로 정렬했을 때, 가운데에 해당하는 값

  • 자료가 홀수인 경우 : 가운데 값
  • 자료가 짝수인 경우 : 가운데 두개의 평균, (n/2, n/2+1)번째 값 평균

 - 특이하게 작거나 큰 값이 자료에 있어도 영향을 받지 않게 됨 → 특잇값에 둔감

 

 

최빈값(Mode)

 - 관측값 중에서 가장 자주 나오는, 빈도수가 최대인 값

 - 명목형 자료의 경우, 평균과 중앙값은 의미가 없으므로 최빈값을 사용

 - 연속형 자료의 경우 같은 값이 중보되어 나오는 경우가 매우 드묾

  • 도수분포표로 자료를 그룹화하여 최대의 도수를 갖는 계급구간의 중간값을 최빈값으로 사용

 - 자료가 적은 경우 최빈값은 무의미

 - 최빈값은 여러 개가 나올 수 있음 → 중심위치 척도로써의 의미가 줆어듬

  • 단봉형 분포에서 적절

 

 

왜도(Skewed)와 중심위치 척도

 - 음의 왜도(Left skewed) : 평균<중앙값<최빈값

 - 양의 왜도(Right skewed) : 최빈값<중앙값<평균

 - 대칭(Symmetry) : 평균=중앙값=최빈값

 

 

사분위수(Quartile)

 - 자료를 크기 순(오름차순)으로 정렬한 후 똑같은 크기의 네 덩어리로 만들 때 그 경계에 해당하는 값

 - 자료의 1/4, 1/2, 3/4, 즉 하위에서 25%, 50%, 75%에 해당하는 값

 - 제 2사분위수는 중앙값과 동일

 

 

 

 

출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014

728x90
Comments