목록자료 (7)
컴공생의 다이어리
시계열 그림(Time Series Plot)이란? - 시간의 변화에 따라 얻게 되는 시계열 자료를 그래프로 표현 - X축은 시간의 흐름, Y축은 해당 시간의 자료 값을 의미 아래 그림에서 X축(=시간의 흐름)은 수면시간이고 Y축은 유병률 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
상자 그림(Box Plot)이란? - 자료를 개괄적으로 알아보기 위해 사용하는 그래프 - 숫자형 자료에 사용 - 상자수염그림(box and whisker plot)이라고도 함 - 다섯숫자요약(Five-number summary) 최소값(Minimum), 제 1사분위수(First Quartile, 25%), 중앙값(Median, 50%), 제 3사분위수(Third Quartile, 75%), 최대값(Maximum) 최소값과 최대값으로 인해 상자의 수염의 길이가 결정 제 1사분위수와 제 3사분위수의 값으로 인해 상자의 길이가 결정 중앙값이 상자 가운데 선의 위치를 결정 - 장점 : 전체적인 분포를 알 수 있으며, 잠재적 이상치(Outlier)를 구분 가능 - 작성법 크기순 재정렬 사분위수를 결정 제 1사분위..
줄기-잎 그림(Stem-and-Leaf Display)이란? - 줄기 잎 그림은 숫자형 자료에 사용 - 히스토그램을 옆으로 돌려 놓은 것과 같음 - 히스토그램과 달리 정보손실 없음 - 각 자료의 값을 알 수 있어 추가 정보를 더 얻을 수 있음 - 대용량 데이터에 적용하기에는 한계가 있음 - 자료의 분포를 시각적으로 쉽게 파악하면서 각 관측값을 유지하는 방법 - 줄기(Stem)와 잎(Leaf)으로 구성 : 한 줄기에 0에서 9까지 잎이 올 수 있음 : 혹은 0-4, 5-9의 잎을 가진 두 줄기로 나뉠 수도 있고, 자료 특성에 따라 더 많은 줄기로 나뉠 수도 있음 - 작성법 관측값을 보고 앞 단위와 뒤 단위를 정함 ex) 관측값이 35인 경우 3은 앞 단위, 5는 뒤 단위 - 앞 단위를 줄기로 하여 순서대로..
기술통계(Descriptive Statistics)란? - 자료 전체의 속성을 파악할 수 있도록 요약, 기술해 주는 통계적 방법 - 세밀한 분석을 위한 기초단계 - 표나 그래프를 이용한 기술 통계 : 도수분포표, 히스토그램, 막대 그림 등 - 수치에 의한 기술 통계 : 중심경향성(→ 평균, 중앙값, 최빈값), 산포도(→ 범위, 분산, 표준편차) 표나 그래프를 이용한 기술 통계 - 통계학에 대한 전문적인 지식이 없는 경우에도 쉽게 자료의 특성을 파악할 수 있도록 시각적 그래프로 표현한 기초적인 자료 요약방법 - 대표적 : 도수분포표, 막대 그림, 파이 그림, 히스토그램, 상자그림, 산점도, 줄기와 잎 그림 등 수치에 의한 기술 통계 - 숫자를 이용하여 자료의 정보를 요약 기술 하는 것 - 모집단으로부터 얻..
자료의 구분 더하고, 빼고, 곱하고, 나누는 사칙연산 가능 여부에 따라 자료를 질적 자료(Qualitative Data)와 양적 자료(Quantitative Data)로 나눌 수 있다. 질적 자료 양적 자료 사칙 연산이 불가능 사칙 연산 가능 비계측 자료(Nonmetric Data) 혹은 범주형 자료(Categorical Data)라고도 함 계측 자료(Metric Data) 혹은 숫자형 자료(Numerical Data)라고도 함 예 : 직업, 종교, 성별 예 : 몸무게, 용돈, 가격 질적 자료(=범주형 자료) 명목형 자료(Nominal Data) - 문자로 나타내어지는 자료 - 범주간 순서가 없음 - 예 : 혈액형, 직업의 종류(전문직, 회사원, 공무원 등), 성별 순서형 자료(Ordinal Data) ..
R 변수 R 변수의 이름 R 변수의 이름을 만들 때는 저장하고자 하는 값을 가장 잘 나타낼 이름을 지어야 한다. 문자, 숫자, 특수문자(점(.), 밑줄(_))을 사용할 수 있음 변수의 이름은 숫자로 시작할 수 없음 변수의 이름은 점(.)으로 시작할 수 있으나 바로 뒤에 숫자가 나올 수 없음 R에서 사용하는 예약어(for, function 등)들은 변수명으로 사용할 수 없음 변수명은 대소문자를 구분함 R 변수 사용하기 할당 연산자 : "
자료 구조는 크게 순차 자료 구조와 연결 자료 구조로 구분할 수 있다. 순차(Sequntial) 자료 구조 순차 자료 구조는 모든 데이터를 단일 메모리 청크에 연속하여 저장한다. 데이터가 메모리에 저장될 때, 저장 시작 위치부터 빈자리 없이 순서대로 저장된다. 이 그림을 보면 각각의 데이터는 int형으로 모두 같은 타입이다. 첫번째 원소의 메모리 주소를 시작 주소(Base Address)라고 하는데 그림에서의 시작 주소는 100이다. 주어진 모든 데이터의 타입이 같기 때문에 두번째 데이터는 시작 주소(100)+sizeof(int)로 104이다. 세번째 데이터는 시작 주소(100)+2*sizeof(int)로 108이다. cf) int 타입은 4byte 자료 구조에서는 배열의 전체 크기에 관계없이 모든 데이..