목록숫자형 (3)
컴공생의 다이어리
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dLPevN/btq1caAZMWD/urGFII6Wt2P7EK8JKwKkLK/img.png)
상자 그림(Box Plot)이란? - 자료를 개괄적으로 알아보기 위해 사용하는 그래프 - 숫자형 자료에 사용 - 상자수염그림(box and whisker plot)이라고도 함 - 다섯숫자요약(Five-number summary) 최소값(Minimum), 제 1사분위수(First Quartile, 25%), 중앙값(Median, 50%), 제 3사분위수(Third Quartile, 75%), 최대값(Maximum) 최소값과 최대값으로 인해 상자의 수염의 길이가 결정 제 1사분위수와 제 3사분위수의 값으로 인해 상자의 길이가 결정 중앙값이 상자 가운데 선의 위치를 결정 - 장점 : 전체적인 분포를 알 수 있으며, 잠재적 이상치(Outlier)를 구분 가능 - 작성법 크기순 재정렬 사분위수를 결정 제 1사분위..
줄기-잎 그림(Stem-and-Leaf Display)이란? - 줄기 잎 그림은 숫자형 자료에 사용 - 히스토그램을 옆으로 돌려 놓은 것과 같음 - 히스토그램과 달리 정보손실 없음 - 각 자료의 값을 알 수 있어 추가 정보를 더 얻을 수 있음 - 대용량 데이터에 적용하기에는 한계가 있음 - 자료의 분포를 시각적으로 쉽게 파악하면서 각 관측값을 유지하는 방법 - 줄기(Stem)와 잎(Leaf)으로 구성 : 한 줄기에 0에서 9까지 잎이 올 수 있음 : 혹은 0-4, 5-9의 잎을 가진 두 줄기로 나뉠 수도 있고, 자료 특성에 따라 더 많은 줄기로 나뉠 수도 있음 - 작성법 관측값을 보고 앞 단위와 뒤 단위를 정함 ex) 관측값이 35인 경우 3은 앞 단위, 5는 뒤 단위 - 앞 단위를 줄기로 하여 순서대로..
도수분포표(Frequency Distribution)란? - 자료의 전체적인 구성 형태를 도수(=각 범주에 속하는 관측 값의 개수)로 표현 - 빈도분포표(Frequency table)라고도 함 - 수치형 자료와 범주형 자료 모두에 사용 작성법 범주형 자료 숫자형 자료 ① 범주 값을 그대로 사용하거나 종류가 너무 많은 경우 비슷한 값을 묶어서 사용 자료의 전체 범위를 몇개의 계급(class)로 나눔 ② 첫번째 열에 모든 범주 나열 첫번째 열에 계급(class interval)을 나열 ③ 두번째 열에 각 범주에 상응하는 도수 나열 두번째 열에 각 계급(class)에 상응하는 도수 나열 범주형 자료(명목형 자료, 순서형 자료) - 값들을 그대로 사용하거나 그 종류가 많으면 비슷한 값들을 묶어 사용 - ex) ..