목록확률및통계 (22)
컴공생의 다이어리
산점도(Scatter Plot)란? - 변수가 2가지 이상일 때 두변수의 연관성을 보여줌 - 각 자료의 변수 A의 값을 X값, 변수 B값을 Y값으로 정하여 점으로 표시 - 선형성(Linearity) : 두 변수의 연관성을 뜻하며, 양의 선형 관계, 음의 선형 관계가 있음 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
시계열 그림(Time Series Plot)이란? - 시간의 변화에 따라 얻게 되는 시계열 자료를 그래프로 표현 - X축은 시간의 흐름, Y축은 해당 시간의 자료 값을 의미 아래 그림에서 X축(=시간의 흐름)은 수면시간이고 Y축은 유병률 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
상자 그림(Box Plot)이란? - 자료를 개괄적으로 알아보기 위해 사용하는 그래프 - 숫자형 자료에 사용 - 상자수염그림(box and whisker plot)이라고도 함 - 다섯숫자요약(Five-number summary) 최소값(Minimum), 제 1사분위수(First Quartile, 25%), 중앙값(Median, 50%), 제 3사분위수(Third Quartile, 75%), 최대값(Maximum) 최소값과 최대값으로 인해 상자의 수염의 길이가 결정 제 1사분위수와 제 3사분위수의 값으로 인해 상자의 길이가 결정 중앙값이 상자 가운데 선의 위치를 결정 - 장점 : 전체적인 분포를 알 수 있으며, 잠재적 이상치(Outlier)를 구분 가능 - 작성법 크기순 재정렬 사분위수를 결정 제 1사분위..
줄기-잎 그림(Stem-and-Leaf Display)이란? - 줄기 잎 그림은 숫자형 자료에 사용 - 히스토그램을 옆으로 돌려 놓은 것과 같음 - 히스토그램과 달리 정보손실 없음 - 각 자료의 값을 알 수 있어 추가 정보를 더 얻을 수 있음 - 대용량 데이터에 적용하기에는 한계가 있음 - 자료의 분포를 시각적으로 쉽게 파악하면서 각 관측값을 유지하는 방법 - 줄기(Stem)와 잎(Leaf)으로 구성 : 한 줄기에 0에서 9까지 잎이 올 수 있음 : 혹은 0-4, 5-9의 잎을 가진 두 줄기로 나뉠 수도 있고, 자료 특성에 따라 더 많은 줄기로 나뉠 수도 있음 - 작성법 관측값을 보고 앞 단위와 뒤 단위를 정함 ex) 관측값이 35인 경우 3은 앞 단위, 5는 뒤 단위 - 앞 단위를 줄기로 하여 순서대로..
히스토그램(Histogram)이란? - 막대그림과 생김새는 비슷하지만, 순서형 자료와 수치형 자료를 도수분포표를 이용해서 그래프 형태로 나타낸 것 - 일반적으로 X축은 각 계급을 나타내며, Y축은 빈도수를 나타냄 - 각 막대의 중간 포인트(X축)가 계급값을 보통 나타냄 - 자료에 대한 정보를 특징적 형태로 제공함 대칭(Symmetry) 왜도(Skewness) 그래프를 중간에서 나누어 봤을 때, 좌우가 대칭인지? 그래프가 좌우로 늘어진 정도 양의 왜도(Right Skewed) 음의 왜도(Left Skewed) 오른쪽으로 길게 늘어짐 왼쪽으로 길게 늘어짐 모양(Shape) 봉우리 개수 종 모양, L자 모양, U자 모양 단봉(Unimodal), 쌍봉(Bimodal) 상이한 집단의 자료들이 섞여 있을 때 쌍봉이..
막대그림(Bar Chart)과 파이그림(Pie Chart) - 명목자료를 그래프로 표시하는 방법 - 막대그림의 경우 순위를 정할 때 많이 사용 - 파이그림의 경우 각 계급의 비율을 중심으로 볼 때 많이 사용 막대그림 파이그림 막대그림과 파이그림이미지 출처 : data-make.tistory.com/65, data-make.tistory.com/67 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
도수분포표(Frequency Distribution)란? - 자료의 전체적인 구성 형태를 도수(=각 범주에 속하는 관측 값의 개수)로 표현 - 빈도분포표(Frequency table)라고도 함 - 수치형 자료와 범주형 자료 모두에 사용 작성법 범주형 자료 숫자형 자료 ① 범주 값을 그대로 사용하거나 종류가 너무 많은 경우 비슷한 값을 묶어서 사용 자료의 전체 범위를 몇개의 계급(class)로 나눔 ② 첫번째 열에 모든 범주 나열 첫번째 열에 계급(class interval)을 나열 ③ 두번째 열에 각 범주에 상응하는 도수 나열 두번째 열에 각 계급(class)에 상응하는 도수 나열 범주형 자료(명목형 자료, 순서형 자료) - 값들을 그대로 사용하거나 그 종류가 많으면 비슷한 값들을 묶어 사용 - ex) ..
기술통계(Descriptive Statistics)란? - 자료 전체의 속성을 파악할 수 있도록 요약, 기술해 주는 통계적 방법 - 세밀한 분석을 위한 기초단계 - 표나 그래프를 이용한 기술 통계 : 도수분포표, 히스토그램, 막대 그림 등 - 수치에 의한 기술 통계 : 중심경향성(→ 평균, 중앙값, 최빈값), 산포도(→ 범위, 분산, 표준편차) 표나 그래프를 이용한 기술 통계 - 통계학에 대한 전문적인 지식이 없는 경우에도 쉽게 자료의 특성을 파악할 수 있도록 시각적 그래프로 표현한 기초적인 자료 요약방법 - 대표적 : 도수분포표, 막대 그림, 파이 그림, 히스토그램, 상자그림, 산점도, 줄기와 잎 그림 등 수치에 의한 기술 통계 - 숫자를 이용하여 자료의 정보를 요약 기술 하는 것 - 모집단으로부터 얻..
자료의 구분 더하고, 빼고, 곱하고, 나누는 사칙연산 가능 여부에 따라 자료를 질적 자료(Qualitative Data)와 양적 자료(Quantitative Data)로 나눌 수 있다. 질적 자료 양적 자료 사칙 연산이 불가능 사칙 연산 가능 비계측 자료(Nonmetric Data) 혹은 범주형 자료(Categorical Data)라고도 함 계측 자료(Metric Data) 혹은 숫자형 자료(Numerical Data)라고도 함 예 : 직업, 종교, 성별 예 : 몸무게, 용돈, 가격 질적 자료(=범주형 자료) 명목형 자료(Nominal Data) - 문자로 나타내어지는 자료 - 범주간 순서가 없음 - 예 : 혈액형, 직업의 종류(전문직, 회사원, 공무원 등), 성별 순서형 자료(Ordinal Data) ..