tgool
Tgool
tgool
전체 방문자
오늘
어제
  • 분류 전체보기
    • Data Science
      • AI
      • Data Mining
      • ML(Machine Learning)
    • Computer Science
      • 자료구조
      • 알고리즘
      • 시스템 프로그래밍
      • 운영체제
      • 컴퓨터 구조
      • 컴퓨터 네트워크
      • 데이터 베이스
      • 파이썬
      • 자바
      • 아두이노
    • Math
      • 통계학
      • 확률론
      • 선형대수학
      • 수리통계학
      • 회귀분석
    • TOFEL
    • Git
    • Plan
    • Book
    • Working out
      • 영양과 생활
      • 운동 정보
      • 운동 기록

인기 글

최근 글

최근 댓글

hELLO · Designed By 정상우.
tgool

Tgool

[회귀분석] 단순선형회귀분석1
Math/회귀분석

[회귀분석] 단순선형회귀분석1

2023. 3. 18. 16:45

목차

 


회귀분석의 정의와, 결정적 모형 및 통계적 모형 


회귀분석 용어


회귀분석의 목적


회귀분석의 유래

단순선형 회귀모형

표본들의 평균이 직선이고 각 x 마다 분산은 시그마 제곱. 왼쪽 그림은 3차원, 오른쪽 그림은 2차원

표본에 따라 표본회귀식 세우기

 

회귀계수추정

 

최소제곱법으로 회귀계수 구하기

구하는 원리는 (오차제곱합이 최소가 되는) 편미분을 통한 기울기가 0인 곳 찾기. 2차 함수이기 때문에.

 

β0를 기준으로 편미분해서 최소값이 되는 식 하나 구하기

β1를 기준으로 편미분해서 최소값이 되는 식 하나 구하기

'

위에서 구한 두 식(정규방정식)을 연립하면 최소제곱추정량이 구해진다.

이에 대한 증명 과정은 다음과 같다.

β0(hat)에 대한 연립

β1(hat)에 대한 연립

표본회귀식을 구하는 예시

최소제곱추정량의 3가지 성질

최소제곱추정량 β1(hat)에 대한 비편향추정량 증명 과정

여기서 포인트는 wi 치환해주는 것이고 x에 대한 식은 상수로 생각한다. 우리는 최종으로 y를 예측하고 싶은 것이기 때문에 y가 변수이다. 오차항도 변수. 편차의 합은 0이다. 그래서 분산 구할 때 제곱해준다는 거 잊지 말자. 

아래 식을 유도하기 위해 알아낸 사실과 최소제곱추정량 β1(hat)에 대한 비편향추정량 결과

최소제곱추정량 β0(hat)에 대한 비편향추정량 증명 U.E(Unbiased estimator)

추정량의 분산에 대한 증명

 β1(hat)의 분산에 대한 증명

왜 sum of squared(편차의 합이) 커질 수록 분산이 왜 작아지는가?

- 편차가 작다는 것은 왼쪽 그래프처럼 값들이 모여져 있어서 기울기 값들에 대한 분산이 큼.

- 반면 편차가 커서 넓게 퍼져 있는 경우 기울기 값들에 대한 분산이 작게 나옴

β0(hat)의 분산에 대한 증명

wi와 x에 대한 식은 상수라는 것을 잊지말자. 분산 공식 이용할 때 상수 취급


우리는 지금까지 아래 그림의 1번 2번에 대한 성질을 증명했다.

 

오차항의 분산이 일정하다는 가정은, 예측값과 오차항이 서로 독립적이며, 오차항이 일정한 분산을 가지는 정규분포를 따른다는 것은 가정. 증명하는 것이 아니다. 오차항의 기대값이 0인 것은 음수인 오차항과 양수인 오차항의 값이 같은 경우가 존재하기 때문.

 

이제 3번에 대해 증명할 차례. 이를 가우스-마르코프 정리라고 한다. 

 

가우스-마르코프 정리가 말하고자 하는 것은 오차를 가장 작게 하는 최소제곱추정량을 구했을 때, 적절한 가정 하에서 BLUE라고 하는 특징을 만족한다는 것. 증명 과정 손으로 다 쓸 수 있을 때까지 익히기. 

var[β1(hat)]에 대한 증명 c_i는 w_i 같은 역할이며 d_i라는 차이로 가중치를 준 것 

var[β0(hat)]에 대한 증명 c_i *는 w_i *같은 역할이며 d_i라는 차이로 가중치를 준 것

 

잔차: 이미 주어진 실제 값 - 예측 값. 이는 평균과 자료값들의 거리니까 편차의 개념. 따라서 잔차의 합은 0

잔차의 합 증명

2번 증명. 저 식을 다 풀면 정규방정식 2번째 식이므로 0이다. 

3번 증명 2번으로부터 유도된다.

4번 증명은 매우 간단.


오차분산의 추정

오차항은 모집단에서 나온 것이기 때문에 측정할 수 없는 값. 

n-2인 이유는 그냥 그렇데요. 그냥 이용한데요.n-2가 자유도래요

표본분산이 비편향추정량이 되는 지에 대한 증명(복잡 step에 따라 잘 따라해보기)

step1

β1(hat)에 대한 식 [x에 대한 식은 상수 (x값이 주어지기 때문에) 무엇에 대한 확률변수인지 집중 여기선 오차항이 확률변수.]

step2

위에 구한 식 대입

i와 j 구분하기. 

치환한 것들 기억하기.

step3

e_i 제곱을 표현하는 단계

step4

3번에서 E[입실론1 * 입실론2]는 공분산이고 독립이므로 값이 0

step5 

위에서 구한(step4) 것을 대입

증명 완료,,,

 

예제 2번 오차표본분산 구하기

 

'Math > 회귀분석' 카테고리의 다른 글

[회귀분석] 다중선형회귀분석1  (0) 2023.03.27
[회귀분석] R를 이용한 회귀계수 추정  (0) 2023.03.26
[회귀분석] 단순선형회귀분석3  (0) 2023.03.26
[회귀분석] R실습  (0) 2023.03.19
[회귀분석] 단순선형회귀분석2  (0) 2023.03.19
    'Math/회귀분석' 카테고리의 다른 글
    • [회귀분석] R를 이용한 회귀계수 추정
    • [회귀분석] 단순선형회귀분석3
    • [회귀분석] R실습
    • [회귀분석] 단순선형회귀분석2
    tgool
    tgool

    티스토리툴바