전체 글 76

[ADsP] ADsP 요점정리 : Part 3. 데이터 마트

목요일 힘들다. 그래도 TIL도 잘 끝냈고 하니, 힘내서 정리 들어가 보자.  3 - (3). 데이터 마트 데이터 마트는 소규모 데이터 웨어하우스로 데이터 웨어하우스와 사용자 사이에 위치한다. 하나의 주제를 중심으로 특정 목적을 위해 운용하는 경우가 일반적. 하나의 비즈니스 프로젝트 단위로 떼낸 데이터라고 생각하면 될 듯.     통계, 시각화 등으로 데이터 의미 탐색주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통하 현시성요약변수와 파생변수 생산요약변수변수들을 정해진 방법대로 종합해 생성하는 feature정석이 있고 재활용성이 높음(많은 모델에 쓰임)구조가 간단해 자동화하기 편리기간별 구매 금액 : 구매 패턴위클리 쇼퍼 : 고객 특성 추정상품별 구매 금액 : 라이프 스테이지 파악구매..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 7주차 4일. 머신러닝 - 지도학습(4). Logistic Regression, SVM, K-Fold Cross Validation, Learning Curve, Grid Search

와! 어렵다! 흑흑 수학적 원리 이해보다 사용법을 먼저 익히고,그다음 원리 이해를 하는 전략으로 가야겠다.   기본 알고리즘(4). Logistic Regression  Linear Regression에서 보았듯, Regression은 회귀 문제를 푸는 알고리즘이다. 그런데 Logistic Regression(로지스틱회귀)는 분류 문제를 푸는 회귀 모델이라는 독특한 모델이다. 이게 왜 그런가 하니... 위 그림처럼 분류 문제에서 이렇게 선형 경계가 나타날 때가 있다. 선 위면 파란색, 선 아래면 빨간색이다. 그런데 잘 보면, 경계에 가까운 점들은 선 위인데 파란색일 때도 있고 그 반대도 있다. 이런 경우, 우리는 저 경계 부근의 값을 두 가지로 처리할 수 있다. 경계 주변 일정 범위에 있는 값은 이상치로..

[ADsP] ADsP 요점정리 : Part 3. 데이터 분석 개요 / R 프로그래밍 기초

2주 남짓(!) 남기고 시작하는 ADsP 대비. KT 에이블스쿨을 진행하고 있어 데이터분석 자체는 해 볼 만 하겠지만 시험 치는 건 또 다른 문제지 ㅎㅎ.. Part 3이 제일 분량이 많으니 Part 3 부터 정리 시작한다. 이 포스팅은 철저하게 내가 보려고 하는 포스팅이므로, '내가 이건 안 해도 된다!'싶은 부분은 생략하고 진행되는 점 참고 바람.  3 - (1). 데이터 분석 개요 데이터 분석이란건 종류가 나뉘어 있다기보단,여러 기법을 적재적소에 활용해야 하는 것이라고 생각한다. 그래서 3-1에서도 데이터 분석의 주요 기법을 설명하고 있다. 구체적인 기법으로는시각화가장 낮은 수준의 분석탐색적 분석에 유용함SNA(Socail Network Analysis, 사회연결망분석)에 잘 쓰인다.공간분석(Spa..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 3일. 머신러닝 - 지도학습(3). KNN 모델, Decision Tree 모델

박차를 가하고 있는 머신러닝 3일차. 점점 수학 비중이 늘어난다 괴롭다 일단 수업들으면서 이해한 만큼만 주절주절 적어 본다.       기본 알고리즘(2). KNN(K-Nearest Neighbor) KNN( K-Nearest Neighbor, K 최근접 이웃)은 train 데이터를 산점도로 쫙 나타낸 다음에,(따라서 fit() 과정은 그냥 산점도를 그리는 과정이다. = 연산이 단순하다.) 주어진 test 데이터를 이 산점도에 찍은 후그 근처에 있는 점들(이웃, Nearest Neigbor) K개로부터 답을 구하는 모델이다. Linear Regression과 달리 회귀와 분류 양쪽에 다 쓸 수 있다. 회귀는 이웃들의 평균, 분류는 이웃들의 최빈값을 답으로 뱉으면 되니까.  그런 이유로 KNN에서는 이웃의..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 2일. 머신러닝 - 지도학습(2). 분류 평가지표 심화, Linear 모델

머신러닝 2일차. 대충 그런게 있다-라고 알고 애써 멀리해 왔던 모델링 수학이 본격적으로 시작되었다. 그야말로 하늘은 높고 공부할 건 늘어나는 가을이다.             모델 평가지표 지난 포스팅(https://guoyee94.tistory.com/40)에서 다룬 모델들의 평가지표. 아무래도 좀 모자란 부분이 보이니까 한번만 더 짚는다. 다시 한 번 머신러닝의 평가지표를 살펴 보자.  회귀 문제회귀MAE(Mean Absolute Error)평균절대오차Σ(오차의 절댓값) ÷ 데이터 수MSE보다 직관적, 이상치에 민감하지 않음 MSE(Mean Squared Error) 평균제곱오차Σ(오차의 제곱) ÷ 데이터 수MAE보다 비직관적, 이상치에 민감함RMSE(Root Mean Squared Error)  √..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 1일. 머신러닝 - 지도학습(1). 머신러닝 지도학습 기초 / 분류 문제/ 회귀 문제 / 평가 지표

드디어 머신러닝이다. 아무래도 코딩이 서툰 입장에서는템플릿 딱딱 정해져 있는 머신러닝이 편하게 느껴지긴 하는듯. 최근 TIL에만 하루에 4시간씩 소비하고 있었는데,AICE 준비하면서 그나마 미리 알아둔 부분이라 다행이다. TIL도 중요하지만 이미 넣어버린 ADsP, SQLD 어쩔거야...잽싸게 복습 끝내고 준비시간을 갖도록 한다.    머신러닝이란 넓은 의미는 뭐... 넣어 두고,좁은 의미로 머신러닝이란컴퓨터에게 데이터를 x(feature), y(target) 형태로 줌으로써x와 y가 어떤 관계를 가지고 있는지 학습시키는 것이다.  우리가 학습을 시키는 대상, 또는 학습을 완료한 주체를 '모델'이라고 부르며,이 모델에게 실제 데이터(x)를 줘서 우리는 알아내지 못하는 y를 예측시키는 것이 궁극적 목적이다..

[KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 5주차, 6주차 후기. 2차 미니프로젝트/데이터 수집/데이터 분석 표현/코딩마스터스 종료

후기작성 이후 최초로... 밀린 2주차를 몰아서 쓴다. 자랑이다. 나름 억울(?)한 면이 있는게,10월 1주차는 국군의날에 개천절,10월 2주차는 한글날이 껴서 휴강이 3일이나 됐다. 쓸 게 있어야지.... 그래도 이번 주차에는 2차미프, 코딩마스터스 종료 등 풀 이야기가 많았으니 몰아서 푼다.  5주차월화수목금데이터 분석국군의 날데이터 수집개천절데이터 수집   6주차월화수목금2차 미니프로젝트한글날데이터 분석 표현   데이터 수집, 데이터 분석 표현  늘 그렇듯 수업 복습은 TIL에서 다루었다. 아직 하나 못썼다 간단하게 감상만 이야기해보자.  데이터 수집 수업 당시에 정말 멍-하게 봤던 기억이 난다. 옆에서 지켜본 여친님 말로는 듣는 내내 승질부리면서 발로 바닥을 쿵쿵 쳤다고.경악스럽게도 우리 집 아래..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 6주차 4일. 데이터 분석 표현(2). streamlit으로 차트 그리기, folium map 사용하기.

지난 포스팅에 이어지는 내용. [streamlit의 이해, streamlit 메서드]https://guoyee94.tistory.com/36 이번에는 streamlit으로 차트 그리는 법과 folium map을 알아보자.         streamlit으로 차트 그리기 streamlit은 강력한 차트 기능을 지원한다. 분석가 입장에서는 비분석가에게 정보를 제공하기 위해 사용하게 되는 만큼,시각화에 힘이 빡 들어간 프레임워크이기 때문이다. streamlit을 활용해서 차트를 그리는 방법은 세 가지가 있다. 1. Simple Chart  - Streamlit에 내장되어 있음, 따로 import 불필요  - st.line_chart(df) / st.bar_chart(df) / st.area_chart(df) ..