목요일 힘들다.
그래도 TIL도 잘 끝냈고 하니, 힘내서 정리 들어가 보자.
3 - (3). 데이터 마트
데이터 마트는 소규모 데이터 웨어하우스로 데이터 웨어하우스와 사용자 사이에 위치한다.
하나의 주제를 중심으로 특정 목적을 위해 운용하는 경우가 일반적.
하나의 비즈니스 프로젝트 단위로 떼낸 데이터라고 생각하면 될 듯.
<데이터 처리 과정 1. EDA>
통계, 시각화 등으로 데이터 의미 탐색
주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통하 현시성
요약변수와 파생변수 생산
요약변수 | 변수들을 정해진 방법대로 종합해 생성하는 feature 정석이 있고 재활용성이 높음(많은 모델에 쓰임) 구조가 간단해 자동화하기 편리 |
기간별 구매 금액 : 구매 패턴 위클리 쇼퍼 : 고객 특성 추정 상품별 구매 금액 : 라이프 스테이지 파악 구매 순서 : 고객 이해 온/오프라인별 구매 금액 : 둘 다 사용하게 유도 단어 빈도 첫 거래 1개월 간 패턴 트렌드 변수 : 추이값 결측치/이상치 처리 범주화 |
파생변수 | 분석자가 주관적으로 만들어 의미를 부여한 feature 논리적 타당성 필요 세분화/고객행동 예측/캠페인 반응 예측에 활용 |
- |
이용되는 패키지
패키지 | 표현 | 기능 |
reshape |
cast() | 데이터프레임을 집계형태로 만듦 |
melt() | 파이썬의 그 melt() | |
sqldf | SQL 명령어 사용 가능해짐 | |
plyr | apply(data, axis, function) | 반복문처럼 데이터프레임의 각 부분에 사용 apply 기반의 다양한 함수 존재 데이터의 분리, 처리, 재결합 등 |
data.table | R에서 가장 많이 사용하는 데이터 핸들링 패키지 큰 데이터의 탐색, 연산, 병합에 적합 기존(data.frame)보다 월등히 빠름 : 빠른 그루핑, Ordering, 짦은 문장 지원 |
구체적 행위
데이터 확인 | head(), tail() |
기초통계량 확인 | |
결측치 파악 |
mean(col) : 결측치가 있으면 NA를 반환 |
is.na() // complete_cases() | |
이상치 파악 | ESD(Extream Studentized Deviation) : 평균에서 3δ만큼 떨어진 값(0.15%) |
(이상치)← 2.5 x δ -------- data의 기하평균 ++++++ 2.5 x δ →(이상치) | |
IQR * 1.5 기준 제거 | |
변수 중요도 파악 | klaR 패키지 : 변수에 따른 클래스 분류 계산, 시각화 - greedy.wilks() : stepwise forward 변수 선택 기법, wilks lambda로 변수의 중요도 정리 (wilks lamda = 집단내 분산 / 총분산, 독립변수의 설명력을 보는 지표) (stepwise forward 변수 선택 기법 : 변수를 하나씩 추가해 가면서 중요도 평가) |
<데이터 처리 과정 2. 데이터 가공>
결측치 처리 | 단순 대치 | 평균대치법 - 비조건부, 조건부(회귀분석 기반) |
단순확률 대치법 - Nearest Neighbor등 활용 / Hot-Deck / Cold - Deck | ||
단순 삭제 - na.rm | ||
다중 대치 | 단순대치 x n labs 대치 - 분석 - 결합의 3단계 |
|
이상치 처리 |
절단 |
geo_mean : 기하평균 이용하여 제거 |
상하위 5%씩 제거 | ||
조정 | 이상치를 각각 상한/하한값으로 바꾸어 활용 상한/하한값 = IQL*1.5 / -IQL*1.5 |
|
연속형 변수 구간화 |
Binning | bins로 나누는 것 |
의사결정나무 | leaf 분할 기준으로 특정 수치형 범주가 반복 선택된다면, 그 분할 기준들로 구간화 |
'자격증 공부 > ADsP' 카테고리의 다른 글
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(3). 회귀분석 (0) | 2024.10.22 |
---|---|
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(2). 기초 통계분석 (0) | 2024.10.21 |
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(1). 통계분석의 이해 (0) | 2024.10.19 |
[ADsP] ADsP 요점정리 : Part 3. 데이터 분석 개요 / R 프로그래밍 기초 (3) | 2024.10.16 |