<회귀분석>
- 독립변수(x)가 종속변수(y)에 미치는 영향을 파악
오차와 잔차의 차이 : 오차는 모집단 기준, 잔차는 표본집단 기준
- 회귀계수를 추정하는 방법 : 최소제곱법
잔차의 제곱합이 최소가 되는 회귀계수(a)와 절편(b)를 구하는 방법
- 회귀모형 평가 : R-square(모형으로 설명가능한 변동 / 총 변동)
<회귀분석의 4가지 과정> ★ ★ ★
선형성 | x와 y가 선형관계일 것 |
등분산성 | 잔차의 분산이 그르게 분포할 것 |
정상성 = 정규성 | 잔차가 정규분포의 특성을 가질 것 Q-Q plot, 샤피로 윌그 검정, 히스토그램, 왜도/첨도 등으로 확인 가능 |
독립성 | 독립변수 간에는 상관관계가 없을 것 |
<회귀분석의 종류>
단순회귀 | 하나의 독립변수만이 영향을 미침 | y = ax + b |
다중회귀 | 독립변수가 둘 이상 | y = a1x1 + a2x2 + ... + anxn + b |
다항회귀 | 독립변수가 2차 이상 | |
릿지회귀 | L2 규제 포함 | 과대적합 방지를 위함 모델 |
라쏘회귀 | L1 규제 포함 |
<ANOVA>
분산분석 표 채워넣기
제곱합 | 자유도 | 제곱평균 | F비 | |
회귀 | SSR | 회귀계수의 수(P) | MSR | MSR / MSE |
잔차 | SSE | 전체 데이터 수 - P -1 | MSE | |
총 | SST | 전체 데이터 수 - 1 |
아는대로 풀면 됨, 총 자유도 + 1 = 데이터 수인 점 주의
<회귀모형의 검정>
모형의 통계적 유의미성 : F-Score(<0.05)
각각의 회귀계수(가중치)의 유의미성 : t-score(<0.05)
해당 모델의 설명력 : R-Square
<최적의 회귀방정식 탐색 방법>
전진선택법 : 변수를 하나씩 추가하면서 찾아냄
후진제거법 : 변수를 하나씩 제거하면서 찾아냄
단계벌 선택법 : 위 두 방법을 쓰면서 벌점을 고려함
'자격증 공부 > ADsP' 카테고리의 다른 글
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(2). 기초 통계분석 (0) | 2024.10.21 |
---|---|
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(1). 통계분석의 이해 (0) | 2024.10.19 |
[ADsP] ADsP 요점정리 : Part 3. 데이터 마트 (0) | 2024.10.17 |
[ADsP] ADsP 요점정리 : Part 3. 데이터 분석 개요 / R 프로그래밍 기초 (3) | 2024.10.16 |