빅데이터

통계론 공식 정리

치우(chiwoo) 2022. 3. 6. 22:27
728x90

통계론 공식 정리




조건부 확률

Pr(Y = y|X = x) = Pr(Y = y,X = x)/ Pr(X = x)

분산

Var(Y) = E[(Y - μy)^2] = E[Y^2] - μy^2

Var(AX +BY) = A^2σx^2 + 2ABσxy + B^2σy^2
σxy = Cov(X,Y)

선형변환

Y = a +bX -> E[Y] = a +bE[X]  μy = a +bμx

σy ^ 2 = b^2σx^2 

Sknewness(비대칭성): S(Y) = E[(Y - μy) ^ 3]/ σy ^ 3

Kurtosis(첨도) : K(Y) = E[(Y - μy) ^ 4 ]/ σy ^ 4
정규분포의 첨도는 3임

Y의 r차 적률 = E[Y^r]

공분산 = Cov(X,Y) = E[ (X- μx) (Y-μy) ] = E[XY] - μxμy
Cov(A + BX + CV, Y) = Bσxy(Bx와 y의 상관관계) + Cσvy(Cv와 Y의 상관관계)

상관계수 = Corr(X,Y) = Cov(X,Y)/ √var(X)var(Y)

선형회귀식의 설명력을 나타내는 값

* R^2

TSS = ESS + SSR
               
(Y - Y바)^2=(Y헷 - Y바)^2+(Y - Y헷)^2

R^2 = ESS/TSS = 1 - SSR/TSS

단순회기 모형의 경우

R^2 = r(xy)^2 = 상관계수의 제곱

r(xy) = Sxy/SxSY 
 = X,Y의 표본공분산/ X의 표준편차 * Y의 표준편차

단순 회기 계술 일 경우
*SER(회기선의 표준오차)

SER = √ (SSR/n-2) = √ (Y-Y헷/n-2)

다중회기 모형일 경우

SER=Su,  Su^2 = SSR/n-k-1 =  Σ(Y-Y헷)^2/데이터의 개수-설명변수의 수 - 상수항

수정된 R^2= 1- (n-1/n-k-1 X SSR/TSS) = 1- Su^2/Sy^2