자격증 공부/ADsP

[ADsP] ADsP 요점정리 : Part 3. 데이터 마트

guoyee94 2024. 10. 17. 21:50

목요일 힘들다.

 

그래도 TIL도 잘 끝냈고 하니, 힘내서 정리 들어가 보자.

 


 

3 - (3). 데이터 마트

 

데이터 마트는 소규모 데이터 웨어하우스데이터 웨어하우스와 사용자 사이에 위치한다.

 

하나의 주제를 중심으로 특정 목적을 위해 운용하는 경우가 일반적.

 

하나의 비즈니스 프로젝트 단위로 떼낸 데이터라고 생각하면 될 듯.

 

 


 

 

<데이터 처리 과정 1. EDA>

 

통계, 시각화 등으로 데이터 의미 탐색

주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통하 현시성

요약변수파생변수 생산

요약변수 변수들을 정해진 방법대로 종합해 생성하는 feature
정석이 있고 재활용성이 높음(많은 모델에 쓰임)
구조가 간단해 자동화하기 편리
기간별 구매 금액 : 구매 패턴
위클리 쇼퍼 : 고객 특성 추정
상품별 구매 금액 : 라이프 스테이지 파악
구매 순서 : 고객 이해
온/오프라인별 구매 금액 : 둘 다 사용하게 유도
단어 빈도
첫 거래 1개월 간 패턴
트렌드 변수 : 추이값
결측치/이상치 처리
범주화
파생변수 분석자가 주관적으로 만들어 의미를 부여한 feature
논리적 타당성 필요
세분화/고객행동 예측/캠페인 반응 예측에 활용
-

 

 

이용되는 패키지

패키지 표현 기능
reshape

cast() 데이터프레임을 집계형태로 만듦
melt() 파이썬의 그 melt()
sqldf   SQL 명령어 사용 가능해짐
plyr apply(data, axis, function) 반복문처럼 데이터프레임의 각 부분에 사용
apply 기반의 다양한 함수 존재
데이터의 분리, 처리, 재결합 등
data.table R에서 가장 많이 사용하는 데이터 핸들링 패키지
큰 데이터의 탐색, 연산, 병합에 적합
기존(data.frame)보다 월등히 빠름 : 빠른 그루핑, Ordering, 짦은 문장 지원

 

 

구체적 행위

데이터 확인 head(), tail()
기초통계량 확인 descrtibe() summary()
결측치 파악
mean(col) : 결측치가 있으면 NA를 반환
is.na() // complete_cases()
이상치 파악 ESD(Extream Studentized Deviation) : 평균에서 3δ만큼 떨어진 값(0.15%)
 (이상치)← 2.5 x δ -------- data의 기하평균  ++++++ 2.5 x δ →(이상치)
IQR * 1.5 기준 제거
변수 중요도 파악 klaR 패키지 : 변수에 따른 클래스 분류 계산, 시각화
 - greedy.wilks() : stepwise forward 변수 선택 기법, wilks lambda로 변수의 중요도 정리
   (wilks lamda = 집단내 분산 / 총분산, 독립변수의 설명력을 보는 지표)
   (stepwise forward 변수 선택 기법 : 변수를 하나씩 추가해 가면서 중요도 평가)

 

 


 

 

 

<데이터 처리 과정 2. 데이터 가공>

 

결측치 처리 단순 대치 평균대치법 - 비조건부, 조건부(회귀분석 기반)
단순확률 대치법 - Nearest Neighbor등 활용 / Hot-Deck / Cold - Deck
단순 삭제 - na.rm
다중 대치 단순대치 x n labs
대치 - 분석 - 결합의 3단계
이상치 처리
절단
geo_mean : 기하평균 이용하여 제거
상하위 5%씩 제거
조정 이상치를 각각 상한/하한값으로 바꾸어 활용
상한/하한값 = IQL*1.5 / -IQL*1.5
연속형 변수 구간화
Binning bins로 나누는 것
의사결정나무 leaf 분할 기준으로 특정 수치형 범주가 반복 선택된다면, 그 분할 기준들로 구간화