전체 글 71

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(2). 기초 통계분석

기술통계 : 표, 그림, 통계량 등으로 자료의 특성을 정리하는 것  ex) 줄기-잎 그림, 도넛차트, 히스토그램, 상자수염그림   산포도분산, 표준편차, 사분위수, 사분위수범위, 백분위수, 변동계수, 표본평균의 표준오차분포형태왜도(비대칭 정도) : 양수면 좌편향, 음수면 우편향, 0이면 대칭 왜도가 양수면 최빈값 왜도가 음수면  평균 첨도첨도 = 0 : 정규분포 정도로 뾰족함   줄기 - 잎 그림데이터를 줄기와 잎의 모양으로 그림자료를 높은 자리의 수와 낮은 자리의 수로 분할한 뒤 전자를 '줄기', 후자를 '잎'으로 칭함.   공분산은 분산의 곱이다. 분산은 평균으로부터 어느 방향으로, 얼마나 떨어져 있는가를 나타내는데,공분산이 음이면(= 두 분산의 부호가 다르면) 둘은 음의 상관관계,공분산이 양이면(=..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 8주차 1일. 머신러닝 - 비지도학습(1). 차원축소(PCA, t-SNE) 클러스터링(K-Means)

비지도학습 개요 오랜만에 Data 기반 비즈니스 문제 해결 방법론 : CRISP-DM을 보자.  1. Business Understanding : 비즈니스 문제 정의, 데이터 분석 목표 설정, ,초기 가설 수립2. Data Understanding : 분석을 위한 구조 만들기, EDA & CDA3. Data Preparation : 결측치 처리, 가변수화, 스케일링4. Modeling5. Evaluation : 기술적/비즈니스적 관점에서 평가 이중에 우리가 지금 공부하고 있는 게 모델링. 그중에서도 비지도학습니다.모델링이란 것은 결국 데이터로부터 패턴을 찾아, 가능한 오차가 적은 수학식을 만드는 과정이다.'가능한 오차가 적은 수학식'이라는 건, 결국 주어진 문제에 최적인 가중치(+편향)를 찾으란 거지.이..

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(1). 통계분석의 이해

ADsP의 꽃, Part 3. Part 3의 꽃, 통계분석. 분량이 다른 범위의 2~3배 정도 되는 것 같다. 조바심 내지 말고 천천히 가 보자.  3 - (4). 통계 분석  총조사 = 전수조사표본조사 : 당연히 대체로 표본조사 실시  - 모집단(Ω)  - 원소 : 모집단의 개체라는 점 주의  - 표본(s, χ)  - 모수(Parameter, δ, μ) : 표본을 통해 구하려는 모집단의 정보(target) 흑백요리사 강점기라 안 잊혀진다.모수의 예로는모평균, 모분산, 모비율, 모표준편차, 모상관관계 등이 있다.   샘플링 방법단순 랜덤 추출법(Simple Random Sampling)각 샘플에 index를 주고 임의의 n개 추출비복원추출(중복 불가) or 복원추출(중복 가능)계통추출법(Systemic ..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 7주차 5일. 머신러닝 - 지도학습(5). Ensemble - Voting, Bagging, Boosting, Stacking / Random Forest, XGBoost, LGBM / 언더샘플링, 오버샘플링

오늘로 머신러닝 - 지도학습편이 끝났다. AICE 준비하면서 생긴 여러 의문들을 해결할 수 있었던 것 같다.기적의 공부법 선암기 후이해      앙상블 알고리즘이란 지금까지 배운 기본 알고리즘들은 과적합에 취약했다. 이는 감당할 수 있는 복잡성에 한계가 있다는 뜻이고,자연스레 많은 데이터를 사용하기 힘들게 된다. 앙상블 알고리즘(Ensemble)은 그 이름대로,복잡성에 한계가 있는 알고리즘을 여러 개 사용하여힘을 합쳐 문제를 해결하는 알고리즘을 총칭하는 말이다. 앙상블 알고리즘은 몇 유형으로 나뉘는데, 그게 뭐냐면보팅(Votiong)같은 데이터로 서로 다른 알고리즘을 학습 배깅(Bagging)서로 다른 데이터로 같은 알고리즘을 학습RandomForest부스팅(Boosting)점진적으로 같은 알고리즘을 발..

[ADsP] ADsP 요점정리 : Part 3. 데이터 마트

목요일 힘들다. 그래도 TIL도 잘 끝냈고 하니, 힘내서 정리 들어가 보자.  3 - (3). 데이터 마트 데이터 마트는 소규모 데이터 웨어하우스로 데이터 웨어하우스와 사용자 사이에 위치한다. 하나의 주제를 중심으로 특정 목적을 위해 운용하는 경우가 일반적. 하나의 비즈니스 프로젝트 단위로 떼낸 데이터라고 생각하면 될 듯.     통계, 시각화 등으로 데이터 의미 탐색주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통하 현시성요약변수와 파생변수 생산요약변수변수들을 정해진 방법대로 종합해 생성하는 feature정석이 있고 재활용성이 높음(많은 모델에 쓰임)구조가 간단해 자동화하기 편리기간별 구매 금액 : 구매 패턴위클리 쇼퍼 : 고객 특성 추정상품별 구매 금액 : 라이프 스테이지 파악구매..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 7주차 4일. 머신러닝 - 지도학습(4). Logistic Regression, SVM, K-Fold Cross Validation, Learning Curve, Grid Search

와! 어렵다! 흑흑 수학적 원리 이해보다 사용법을 먼저 익히고,그다음 원리 이해를 하는 전략으로 가야겠다.   기본 알고리즘(4). Logistic Regression  Linear Regression에서 보았듯, Regression은 회귀 문제를 푸는 알고리즘이다. 그런데 Logistic Regression(로지스틱회귀)는 분류 문제를 푸는 회귀 모델이라는 독특한 모델이다. 이게 왜 그런가 하니... 위 그림처럼 분류 문제에서 이렇게 선형 경계가 나타날 때가 있다. 선 위면 파란색, 선 아래면 빨간색이다. 그런데 잘 보면, 경계에 가까운 점들은 선 위인데 파란색일 때도 있고 그 반대도 있다. 이런 경우, 우리는 저 경계 부근의 값을 두 가지로 처리할 수 있다. 경계 주변 일정 범위에 있는 값은 이상치로..

[ADsP] ADsP 요점정리 : Part 3. 데이터 분석 개요 / R 프로그래밍 기초

2주 남짓(!) 남기고 시작하는 ADsP 대비. KT 에이블스쿨을 진행하고 있어 데이터분석 자체는 해 볼 만 하겠지만 시험 치는 건 또 다른 문제지 ㅎㅎ.. Part 3이 제일 분량이 많으니 Part 3 부터 정리 시작한다. 이 포스팅은 철저하게 내가 보려고 하는 포스팅이므로, '내가 이건 안 해도 된다!'싶은 부분은 생략하고 진행되는 점 참고 바람.  3 - (1). 데이터 분석 개요 데이터 분석이란건 종류가 나뉘어 있다기보단,여러 기법을 적재적소에 활용해야 하는 것이라고 생각한다. 그래서 3-1에서도 데이터 분석의 주요 기법을 설명하고 있다. 구체적인 기법으로는시각화가장 낮은 수준의 분석탐색적 분석에 유용함SNA(Socail Network Analysis, 사회연결망분석)에 잘 쓰인다.공간분석(Spa..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 3일. 머신러닝 - 지도학습(3). KNN 모델, Decision Tree 모델

박차를 가하고 있는 머신러닝 3일차. 점점 수학 비중이 늘어난다 괴롭다 일단 수업들으면서 이해한 만큼만 주절주절 적어 본다.       기본 알고리즘(2). KNN(K-Nearest Neighbor) KNN( K-Nearest Neighbor, K 최근접 이웃)은 train 데이터를 산점도로 쫙 나타낸 다음에,(따라서 fit() 과정은 그냥 산점도를 그리는 과정이다. = 연산이 단순하다.) 주어진 test 데이터를 이 산점도에 찍은 후그 근처에 있는 점들(이웃, Nearest Neigbor) K개로부터 답을 구하는 모델이다. Linear Regression과 달리 회귀와 분류 양쪽에 다 쓸 수 있다. 회귀는 이웃들의 평균, 분류는 이웃들의 최빈값을 답으로 뱉으면 되니까.  그런 이유로 KNN에서는 이웃의..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 2일. 머신러닝 - 지도학습(2). 분류 평가지표 심화, Linear 모델

머신러닝 2일차. 대충 그런게 있다-라고 알고 애써 멀리해 왔던 모델링 수학이 본격적으로 시작되었다. 그야말로 하늘은 높고 공부할 건 늘어나는 가을이다.             모델 평가지표 지난 포스팅(https://guoyee94.tistory.com/40)에서 다룬 모델들의 평가지표. 아무래도 좀 모자란 부분이 보이니까 한번만 더 짚는다. 다시 한 번 머신러닝의 평가지표를 살펴 보자.  회귀 문제회귀MAE(Mean Absolute Error)평균절대오차Σ(오차의 절댓값) ÷ 데이터 수MSE보다 직관적, 이상치에 민감하지 않음 MSE(Mean Squared Error) 평균제곱오차Σ(오차의 제곱) ÷ 데이터 수MAE보다 비직관적, 이상치에 민감함RMSE(Root Mean Squared Error)  √..