목록확률및통계 (22)
컴공생의 다이어리
이산형 확률분포(Discrete probability distribution) 확률 변수가 취할 수 있는 값들에 확률이 대응되어 있는 것 확률 질량 함수(probability mass function, pmf) - 이산형 확률변수에 대응되는 확률 분포를 확률 질량함수라고 함 - f(x) = P(X = x)로 표기하고, 이는 이산형 확률 변수 X가 값 x를 갖는 확률을 의미 누적 분포 함수(cumulative distribution function, cdf) - 이산형 확률변수 X의 누적확률분포함수 F(x)는 확률변수 X가 x보다 작거나 같은 확률을 의미 누적 분포 함수의 성질 - 0≤F(X)≤1 - F(-∞)=0 and F(∞)=1 - F(x)는 비감소 함수 기댓값(=평균) - 기댓값은 확률분포에서 분포..
확률 변수(Random Variable)란? - 확률 실험의 결과에 대한 숫자적 표현 - 실험의 표본공간으로부터 실수 값(-∞, ∞)으로의 변환 함수 - 확률변수가 특정 실수 값을 가질 확률은 표본공간의 원소에 대한 확률로부터 유도됨 - 정의역(domain)이 표본공간이고 공역(codomain)이 실수값인 함수 - 확률변수는 대문자로 표시 - Ex) X, Y, Z, ... - 확률변수가 취하는 값은 소문자로 표시 - Ex) x, y, z, ... 확률변수의 종류 확률변수에는 이산형 확률변수와 연속형 확률변수가 있다. 이산형 (discrete) 유한개이거나 셀 수 있는 값을 갖는 확률 변수 ex) 박지성 선수가 한 경기에서 넣은 골수 연속형 (continuous) 무한개의 셀 수 없는 구간 또는 구간의 조..
일반적으로 원인에 대한 결과의 확률은 잘 알려져 있다. 예를 들어 자동차 고장 원인에 대한 증상들의 확률에 대해 얘기해보자. 자동차 고장 원인에는 배터리, 센서, 연료, 필터 등이 있다고 하고 증상에는 차가 멈춤, 급발진 등이 있다고 한다면 여기서 고장 원인은 앞사건(먼저 일어난 사건), 증상은 뒷사건이다. 앞서 말했듯이 원인(앞사건)에 대한 결과(뒷사건)은 잘 알 수 있다. 그러나 보통은 자동차가 일단 고장이 나면 그 증상을 일으키는 원인이 무엇인지를 찾아야 하며 이때 우리는 증상에 따른 원인들의 확률을 찾아야 한다. 이 확률을 구하기 위해 사용되는 것이 바로 베이즈 정리이다. 베이즈 정리(Bayes' theorem) - 어떤 조건 확률을 구할 때, 그 조건 상황이 역으로 되어 있는 확률을 이용하는 것..
공분산(Covariance)의 성질 조건 : X와 Y의 공분산을 Cov(X, Y)라고 할 때 → Cov(X, Y) = σXY → X의 평균 = E[X] = μX → X의 분산 = Var(X) = σX2 → Y의 분산 = Var(Y) = σY2 1) Cov(X, X) = E[(X-μX)(X-μX)] = E[(X-μX)2] = Var(X) 2) Cov(Y, X) = E[(Y-μY)(X-μX)] = E[(X-μX)(Y-μY)] = Cov(X, Y) 3) Cov(aX+b, Y) = E[(aX+b - E[aX+b])(Y-μY)] = aE[(X-μX)(Y-μY)] = aCov(X, Y) (이때, E[aX+b]= aμX + b) 4) Cov(aX+b, cY+d) = acCov(X, Y) 5) Cov(aX+bY, cX..
확률(Probability)이란? - 우리가 얻는 임의의 표본은 모두 확률에 의한 사건 - 사건이 일어날 가능성을 0과 1 사이의 실수로 표현한 것 - 사건 : 발생 가능한 결과들의 집합, 표본공간의 부분 집합 - 단순사건 : 발생 가능한 결과들 중 하나만 발생한 사건 - 표본공간 : 일어날 수 있는 모든 가능한 단순사건을 모아 집합으로 표시한 것 모든 원소를 포함 상호 배반 표본공간 일어날 수 있는 모든 가능한 단순사건을 모아 집합으로 표시한 것 예시1) 동전을 1개 던지는 실험에 대한 표본공간 → {앞면, 뒷면} 예시2) 전구의 수명시간에 대한 표본공간 → { t | t ≥ 0, t : 실수 } 사건(event) 표본 공간 S의 임의의 부분집합 전통적 접근, 상대적 비율 접근, 주관적 접근으로 보는 ..
연관성 척도(Measure of Association)란? - 2개 또는 그 이상의 항목에 대한 자료들이 상호 관련되어 있는지를 나타내는 척도 - 선형 관계(Linear relationship)에 대한 연관성 척도에는 공분산(Covariance), 상관계수(Correlation Coefficient)가 있음 공분산(Covariacne) - 두 변수 (X, Y)가 자기 평균으로부터 떨어진 값을 서로 곱한 후, 모두 합하여 모집단에서는 N, 표본에서는 n-1로 나눈 값 모집단 공분산 표본 공분산 - 두 변수가 어느 방향(부호, sign)으로 얼마나 변동(크기, magnitude)하는 지를 나타냄 공분산 속성 x와 y는 양의 선형관계 x와 y는 음의 선형관계 x와 y는 선형적 관계를 갖지 않음 상관계수(Cor..
변동성 척도(Measure of Variability:Spread)란? - 중심위치의 척도만으로 분포를 설명할 수 없음 - 변동성 : 자료의 변동, 퍼져있는 정도 - 변동성 척도 범위(Range) 사분위간 범위(Interquartile Range : IQR) 분산(Variance), 표준편차(Standard Devication) 변동계수(Coefficient of Variation) 범위(Range) - 최대값과 최소값의 거리 - 쉽고 빠르게 구할 수 있음 - 특이하게 크거나 작은 값이 있을 경우 자료의 범위에 왜곡이 발생 - 자료의 개수와 상관 없이 같게 나올 수 있음(자료의 개수가 반영X) → 자료의 변동성을 대표하지 못하는 경우가 많음 사분위범위(IQR) - 양쪽 극단값에서 자료의 25%씩 안쪽으로..
중심위치 척도(Measure of Location)란? - 자료들이 대략 어떠한 값을 갖는지를 알아보기 위해, 어느 위치를 중심으로 자료들이 분포되어 있는지를 나타내는 척도 평균(Mean) 중앙값, 중위수(Median) 최빈값(Mode) 사분위수(Quartile) - 평균과 중앙값은 숫자형, 최빈값은 범주형과 숫자형에 다 사용 평균(Mean) - 가장 많이 사용되는 중심위치 척도 - 자료의 값(value)을 모두 더하여 자료의 수(size)로 나눈 값 - 표본 평균(Sample mean) : 표본 자료의 평균(표본 자료의 개수 : n) - 모집단 평균(Population mean) : 모집단 자료의 평균(모집단 자료의 개수 : N) - 특잇값(이상치)이 있다면 절삭 평균을 이용 (절삭 평균을 사용한다면 ..
수치 기술 통계(Numerical Descriptive Statistics)란? - 숫자를 이용하여 자료의 정보를 요약 기술 하는 것 ex) 평균, 표준편차, 공분산, 상관계수 등 - 모집단으로부터 얻어진 표본에서 구한 평균, 분산, 표준편차 등을 총칭하여 통계량이라고 함 - 척도의 분류 중심위치 척도(Measure of Location) 변동성 척도(Measure of Varability : Spread) 연관성 척도(Measure of Association) 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014
특잇값(Outlier)이란? - 다른 값들에 비하여 특이하게 아주 크거나 작은 값 - 특이값, 이상치들은 자료를 기입하거나 정리할 때 잘못된 경우가 있으므로 특이값을 발견하면 기입오류인지 반드시 확인해 봐야 함 - 기입 오류를 수정할 수 있다면 오류를 바로 잡고, 수정하지 못하는 경우 통계 분석에서 제외시켜야 함 예시 위의 그림에서 특잇값은 노란색으로 표시해 놓은 부분이다. 위의 그림에서 특잇값은 빨간색 원으로 표시해 놓은 부분이다. 출처 : EXCEL, SPSS, R로 배우는 통계학입문/강상욱 외 8인 공저/자유아카데미/2014