확률변수(random variable): 변수들이 갖는 각 결과에 하나의 실수값을 대응시켜주는 함수, 표본공간에서 정의된 실수 값을 취하는 함수
- 이산확률변수(discrete random variable) 변수 값을 셀 수 있는 경우 ex) 동전의 앞면의 수, 한 해동안 파산된 기업의 수
- 연속확률변수(continuous random variable) 변수값을 셀 수 없는 경우 ex) 키, 몸무게 등
확률분포(probability distribution): 확률변수의 확률을 대응시키는 함수
이산확률분포(discrete probability distribution) -확률질량함수(probability mass function, PMF)
- 대표적인 이산확률분포로써 이항분포, 포아송분포 등이 포함
연속확률분포(continuous probability distribution) - 확률밀도함수(probability density function, PDF)
누적분포함수(cumulative distribution function, CDF): 특정 범위까지의 확률의 합
모수(parameter)
표준편차(standard deviation(σ))
정규분포(Normal distribution): 평균을 중심으로 대칭인 종모양의 분포. 분포의 퍼짐의 상태는 분산에 의해 결정됨
표준정규분포(standard normal distribution): 평균이 0이고 분산이 1인 정규분포. 정규분포를 표준화 시켜준 것
스튜던트 t-분포(student's t-distribution): 분포의 퍼짐의 정도는 자유도(df, degree of freedom)에 의해 정의됨
카이제곱 분포(Chi-squared distribution): 표준정규분포의 확률변수를 제곱한 값들의 합의 분포 자유도가 k인 x2(k)
F-분포(F-distribution): 두 확률변수가 독립이고 각각 카이제곱분포를 따를 때 서로 나눈 것
- (자유도 v1인 카이제곱분포/v1) / (자유도 v2인 카이제곱분포/v2) ~ F(v1,v2)
결합확률분포(joint probability distribution) -> 이변량 정규분포(bivariate normal distribution)
- 이변량 표쥰정규밀도함수는 이차원에서 등고선 처럼 그려지는 것을 잊지 말 것. 퍼짐의 정도는 두 개의 분산에 따라
주변확률분포(marginal probability distribution)- 개개의 확률변수들이 갖는 확률분포
조건부 확률분포(conditional probability distribution) 표기법 주의
확률 표본은 i.i.d(independent and identically distribution)를 따른다. + 확률 변수들의 선형결합을 통해 (변수들이 서로 독립, 정규분포를 따를 경우) 표본 평균의 기댓값과 분산을 유도할 수 있다.
중심극한정리(CLT central limit theorem): 확률변수의 평균이 m이고 분산이 시그마 제곱인 확률분포를 따르며 서로 독립일 때, 표본의 크기 n이 적당히 크면 표본평균의 분포는 근사적으로 평균이 m이고 분산이 시그마제곱/n인 정규분포에 가까워진다.'
모집단(population): 관심대상의 전체집단
모수(parameter): 모집단이나 변수의 통계적 특성을 나타내는 수치, 예) 모평균, 모분산 등
표본(sample): 실제로 측정 또는 관찰한 집단으로써 모집단의 일부분
통계랑(statistic): 모수에 대응하여 표보늬 특성을 나타내느 수치 예) 표본평균, 표본분산 등
통계정 추정: 모수를 표본에 기초하여 계산된 하나의 값 또는 구간의 값을 구하는 과정을 뜻함, 점추정과 구간추정으로 나누어짐
통계적 검정: 모집단의 특성과 관련된 가설(hypothesis)에 대해 표본을 이용하여 이를 입증하는 과정
추정(estimation): 모수를 추정하는 과정, 점추정과 구간추정으로 나눌 수 있음.
점추정(point estimation): 표본을 이용하여 모수를 하나의 값으로 추정하는 것
구간추정(interval estimation): 모수가 포하뫼어지리라 여겨지는 구간을 표본으로부터 구해내는 것
추정량(estimator): 모수의 추정에 사용되는 표본들의 함수인 통계랑
추정값(estimate): 표본에 의해서 실제 관측된 추정량의 값
추정 방법
1. 최소제곱법(least squares method, LSE)
2. 최대가능도추정법(maximum liklihood estimation method, MLE): 확률밀도함수 또는 확률질량함수를 가장 크게하는 값을 모수의 추정값으로 정하는 방법
가능도함수(likelihood function): 표본이 주어졌을 때, 모수에 대한 확률밀도함수 또는 확률질량함수, 모수에 대한 함수
최대가능도추정량(maximum likelihood estimator): 가능도함수를 최대로 하는 추정량
추정량의 대표적인 성질
1. 비편향추정량(unbiased estimator): 추정량의 편향이 없는 경우
- 추정량의 편향(bias): 추정량의 기댓값과 모수의 차이
2. 최소분산추정량(minimum variance estimator): 다른 추정량의 분산에 비해 작음
- 추정량의 분산이 작다 = 모수를 더욱 정확하게 추정할 수 있다는 것을 의미 var(1) <= var(2)
3. 일치성(consistency): 표본의 크기가 커질수록 추정량이 모수에 가까워지는 성질
- 최량선형비편향추정량(best linear unbiased estimator, BLUE): 추정량이 선형함수로 주어지고, 비편향성을 만족하는 추정량들의 집합 중에서 최소분산을 갖는 추정량
A. Unbiasedness + Efficiency: 영점사격 가운데 다 몰려있는 거
B. Biasedness + Efficiency: 영점사격 탄집이 모여 있지만 가운데 못 맞춘 거
C. Unbiasedness + 비효율성: 영점사격 가운데는 맞췄지만 탄집이 모여있지 않은 것
D. Biasedness + 비효율성: 영점사격 0점
표집분포(Sampling distribution): 추정량의 분포
- 추정값들이 이루는 분포
구간측정(Interval estimation)
- 신뢰구간(confidence interval): 모수가 포함되어지리라 여겨지는 구간 (CI)
- 신뢰수준(confidence level): 여러 번 구한 신뢰구간 중 추정하고자 하는 모수를 포함하는 신뢰구간의 비율
통계적 검정
단계 1: 가설 설정
단계 2: 검정통계랑 계산 (귀무가설 하에서) 귀무가설 맞다는 가성 하에서
단계 3: 귀무가설 기각여부 판단(양측 검정, 단측 검정)