Math

[회귀분석] 회귀모형의 진단과 수정 -1
부터 재생00:59 부터 재생03:37 부분적으로 회귀 검정을 할 수 있다. SST는 완전모형이나 축소모형이나 동일하다. SST에는 회귀식이 들어있지 않기 때문이다. 부터 재생09:06 Bold 글씨체는 벡터다! scalar와 구별 잘하기 축소한 모형과 완전 모형을 비교해서 축소 모형의 큰 차이가 없으면 축소 모형을 선택하면 된다. 부터 재생13:12 설명변수가 많은 수록 y의 fitting 값이 y에 가까워 진다. (Y(hat)의 식만 봐도 알 수 있죠) 따라서 full model의 SSE가 더 작고 SSR이 크다. 두 모형의 SSE, SSR의 차이를 비교하면 된다. 부터 재생19:07 예제 부터 재생21:51 부터 재생23:56 H0를 기각할 수 없다. 즉 필요 없는 변수라는 것(귀무가설 기각 못함 ..

[회귀분석] R을 이용한 다중선형회귀분석2 (적합도와 분산분석, 추론)
F검정 lower.tail이 F면 태일을 남기지 않고 태일인 곳? 이라 생각 anova(model)을 이용할 때 x1, x2에 따른 각각의 SSR이 나오기 때문에 합해야지 전체 SSR이 된다. Sum sq부분이 SSR 부분 MSR도 마찬가지 F value가 각각 나오는 곳은 합하면 안된다. MSR/MSE로 직접 구하기 summary(model)은 Estimate는 추정값 b(hat) std error은 b(hat)의 표준에러 F value도 나온다. 보통 회귀식을 세우고 summary함수 이용 예제 diag()는 대각 원소들만 뽑아서 행하나 만듬 coef_mat[,1]은 첫번째 열만 뽑아옴 베타2만 귀무가설 기각을 하지 못함. 예제 (2) 신뢰구간 confint(model)로 신뢰구간 구할 수 있다. 예..

[회귀분석] 중회귀분석에서의 적합도와 분산분석
자유도 부분에서 p는 회귀계수의 개수이고 SSR의 자유도는 SST와 SSE의 차로 구해진다. 딱히 이유는 없다. 예제 적합도 S가 작을 수록 좋다. 자유도로 나눠주는 이유는 SSE는 설명변수의 개수가 증가할수록 감소하기 때문이다. 설명하지 못하는 설명변수가 들어감에도 개수가 늘어난다고 SSE가 감소하면 좋지 않기 때문이다. 따라서 자유도로 나누어주는 것이다. 이에 대한 추가 설명 설명변수가 3개였을 때 100이였는데 2개 추가해서 98.2이면 추가된 설명변수의 영향이 크지 않다는 것. 따라서 추가된 설명변수의 영향을 잘 파악하기 위해 n - p(설명변수의 개수)로 나눠줘야 함. SSE는 변동이 있기 때문에 보정된 결정계수를 이용한다. 예측도 및 F 검정 예제 귀무가설 기각 쿼드라틱 폼(이차형식) 1. 총..

[회귀분석] R을 이용한 중회귀분석 회귀계수 추정
rep문 x=1의 값을 dim에 행의 개수만큼 반복해서 생성하라. Sale_data[,-1]은 첫번째 열을 빼라는 의미 cbind는 컬럼으로 묶어라 as.matrix() 는 매트릭스로 변환 colnames() 이름 지정 Sale_data[,1] 첫번째 열만 추출 행렬의 곱은 %*% t() 는 transpose 취하는 것 solve()는 역행렬 구하는 것 lm()함수 이용해서 구하는 게 간단

[회귀분석] 다중선형회귀분석1
중선형회귀분석 각 설명변수의 순수한 영향력에 집중하기 위해 예시 선형모형과 비선형모형 행렬을 이용한 모형식 오차항에 대한 기댓값 및 분산 가정 XB는 상수!! 예시 회귀계수의 추정 최소제곱법(OLS) 행렬과 벡터를 이용해 회귀계수 유도 아래처럼 행령의 연산이 스칼라 값이 되면 순서를 바꿔도 같은 값이기 때문에 다음과 같이 표현할 수 있다. 2, 3번은 행렬의 미분파트 암기 자유도로 나누어주는 부분에서 빼주는 것은 찾고자하는 계수들의 개수라 생각해도 무방하다. 예제 최소제곱추정량의 성질 비편향 추정량 증명 추정량의 분산 공분산 행렬 증명 X(t)x는 대칭행렬이다. 공분산은 0이 아니다. 존재한다. 가우스 마르코프 정리 BLUE 1번과 3번에 대한 증명. 2번은 위에서 증명함 1번 증명 이걸로 끝 3번 증명..