자격증 공부/ADsP

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(3). 회귀분석

guoyee94 2024. 10. 22. 21:08

 

<회귀분석>

- 독립변수(x)종속변수(y)에 미치는 영향을 파악

오차와 잔차의 차이 : 오차모집단 기준, 잔차표본집단 기준

 

- 회귀계수를 추정하는 방법 : 최소제곱법

 잔차의 제곱합이 최소가 되는 회귀계수(a)와 절편(b)를 구하는 방법

 

- 회귀모형 평가 : R-square(모형으로 설명가능한 변동 / 총 변동)

 

 

 

<회귀분석의 4가지 과정> ★

선형성 x와 y가 선형관계일 것
등분산성 잔차의 분산이 그르게 분포할 것
정상성 = 정규성 잔차가 정규분포의 특성을 가질 것
Q-Q plot, 샤피로 윌그 검정, 히스토그램, 왜도/첨도 등으로 확인 가능
독립성 독립변수 간에는 상관관계가 없을 것

 

 

 

<회귀분석의 종류>

단순회귀 하나의 독립변수만이 영향을 미침 y = ax + b
다중회귀 독립변수가 둘 이상 y = a1x1 + a2x2 + ... + anxn + b
다항회귀 독립변수가 2차 이상  
릿지회귀 L2 규제 포함 과대적합 방지를 위함 모델
라쏘회귀 L1 규제 포함

 

 

 

<ANOVA>

분산분석 표 채워넣기

  제곱합 자유도 제곱평균 F비
회귀 SSR 회귀계수의 수(P) MSR MSR / MSE
잔차 SSE 전체 데이터 수 - P -1 MSE
SST 전체 데이터 수 - 1    

 

아는대로 풀면 됨, 자유도 + 1 = 데이터 수인 점 주의

 

 

 

 

<회귀모형의 검정>

모형의 통계적 유의미성 : F-Score(<0.05)

각각의 회귀계수(가중치)의 유의미성 : t-score(<0.05)

해당 모델의 설명력 : R-Square

 

 

 

<최적의 회귀방정식 탐색 방법>

전진선택법 : 변수를 하나씩 추가하면서 찾아냄

후진제거법 : 변수를 하나씩 제거하면서 찾아냄

단계벌 선택법 : 위 두 방법을 쓰면서 벌점을 고려함