dx트랙 13

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 8주차 1일. 머신러닝 - 비지도학습(1). 차원축소(PCA, t-SNE) 클러스터링(K-Means)

비지도학습 개요 오랜만에 Data 기반 비즈니스 문제 해결 방법론 : CRISP-DM을 보자.  1. Business Understanding : 비즈니스 문제 정의, 데이터 분석 목표 설정, ,초기 가설 수립2. Data Understanding : 분석을 위한 구조 만들기, EDA & CDA3. Data Preparation : 결측치 처리, 가변수화, 스케일링4. Modeling5. Evaluation : 기술적/비즈니스적 관점에서 평가 이중에 우리가 지금 공부하고 있는 게 모델링. 그중에서도 비지도학습니다.모델링이란 것은 결국 데이터로부터 패턴을 찾아, 가능한 오차가 적은 수학식을 만드는 과정이다.'가능한 오차가 적은 수학식'이라는 건, 결국 주어진 문제에 최적인 가중치(+편향)를 찾으란 거지.이..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 3일. 머신러닝 - 지도학습(3). KNN 모델, Decision Tree 모델

박차를 가하고 있는 머신러닝 3일차. 점점 수학 비중이 늘어난다 괴롭다 일단 수업들으면서 이해한 만큼만 주절주절 적어 본다.       기본 알고리즘(2). KNN(K-Nearest Neighbor) KNN( K-Nearest Neighbor, K 최근접 이웃)은 train 데이터를 산점도로 쫙 나타낸 다음에,(따라서 fit() 과정은 그냥 산점도를 그리는 과정이다. = 연산이 단순하다.) 주어진 test 데이터를 이 산점도에 찍은 후그 근처에 있는 점들(이웃, Nearest Neigbor) K개로부터 답을 구하는 모델이다. Linear Regression과 달리 회귀와 분류 양쪽에 다 쓸 수 있다. 회귀는 이웃들의 평균, 분류는 이웃들의 최빈값을 답으로 뱉으면 되니까.  그런 이유로 KNN에서는 이웃의..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 2일. 머신러닝 - 지도학습(2). 분류 평가지표 심화, Linear 모델

머신러닝 2일차. 대충 그런게 있다-라고 알고 애써 멀리해 왔던 모델링 수학이 본격적으로 시작되었다. 그야말로 하늘은 높고 공부할 건 늘어나는 가을이다.             모델 평가지표 지난 포스팅(https://guoyee94.tistory.com/40)에서 다룬 모델들의 평가지표. 아무래도 좀 모자란 부분이 보이니까 한번만 더 짚는다. 다시 한 번 머신러닝의 평가지표를 살펴 보자.  회귀 문제회귀MAE(Mean Absolute Error)평균절대오차Σ(오차의 절댓값) ÷ 데이터 수MSE보다 직관적, 이상치에 민감하지 않음 MSE(Mean Squared Error) 평균제곱오차Σ(오차의 제곱) ÷ 데이터 수MAE보다 비직관적, 이상치에 민감함RMSE(Root Mean Squared Error)  √..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 1일. 머신러닝 - 지도학습(1). 머신러닝 지도학습 기초 / 분류 문제/ 회귀 문제 / 평가 지표

드디어 머신러닝이다. 아무래도 코딩이 서툰 입장에서는템플릿 딱딱 정해져 있는 머신러닝이 편하게 느껴지긴 하는듯. 최근 TIL에만 하루에 4시간씩 소비하고 있었는데,AICE 준비하면서 그나마 미리 알아둔 부분이라 다행이다. TIL도 중요하지만 이미 넣어버린 ADsP, SQLD 어쩔거야...잽싸게 복습 끝내고 준비시간을 갖도록 한다.    머신러닝이란 넓은 의미는 뭐... 넣어 두고,좁은 의미로 머신러닝이란컴퓨터에게 데이터를 x(feature), y(target) 형태로 줌으로써x와 y가 어떤 관계를 가지고 있는지 학습시키는 것이다.  우리가 학습을 시키는 대상, 또는 학습을 완료한 주체를 '모델'이라고 부르며,이 모델에게 실제 데이터(x)를 줘서 우리는 알아내지 못하는 y를 예측시키는 것이 궁극적 목적이다..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 6주차 4일. 데이터 분석 표현(1). streamlit 이해, streamlit 메서드

특히 뒤풀이가 폭풍같이 지나가버린 2차 미니프로젝트. 지금 안건데 지난주 후기를 안썼더라. 숙제가 늘어나는 기분. 어쨌든 미니프로젝트 후기는 이번 주말에 쓰기로 하고,이번주 목-금은 '허신' 강사님께 '데이터 분석 표현'이란 걸 배운다. 월화수목금2차 미니프로젝트한글날데이터 분석 표현  Jupyter Notebook 환경을 벗어나,실무에선 시각화 및 인터페이스 재현을 이렇게 진행하는건가...? 를 맛볼 수 있는 시간이었던 것 같다.        Streamlit의 이해  Streamlit은 파이썬으로 쉽게 데이터 애플리케이션을 만들 수 있게 해주는 오픈소스 프레임워크이다. 복잡한 웹 개발 지식 없이도 간단한 코드로 대화형 웹 애플리케이션을 개발할 수 있으며, 특히 데이터 분석, 머신러닝 모델 시각화 및 ..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 5주차 1일. 데이터 수집(2)

데이터 수집 파트의 둘째날이자 마지막 날. 웹 분야를 완전히 처음 접하는 건 아니지만...강사님 설명이 무척 빠르셨다. 아예 처음이었으면 멘탈이 많이 갈렸을 듯.  동적 페이지 크롤링 실습 몇가지 사례를 통해 동적 페이지 크롤링을 더 해 보았다. 사전학습 때도 느꼈지만, 크롤링은 변수와 상황이 너무 많아서 힘든 것 같다 ㅠ 공식처럼 쓰는 게 안된달까... 큰 틀은 지난 포스팅에서 본 것과 같다.# 1. URLurl = 'https://m.stock.naver.com/api/index/KOSPI/price?pageSize=10&page=2'# 2. request(URL) > response(JSON(str))response = requests.get(url)# 3. JSON(str) > list or di..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 5주차 1일. 데이터 수집(1) - 웹 크롤링 이론, python class

폭풍같안던 한기영 강사님의 데이터 분석 파트가 끝나고... 미니프로젝트 D-day 카운트와 함께 박두진 강사님께서 오셨다. 전직 국어쌤으로서 괜히 친근감이 드는 성함이다. 청록파 박두진 강사님은 뭐랄까,기본을 탄탄하게 쌓아 주시고, 잡담이 없으신 편이다. 처음에는 너무 달리신다... 싶었는데,오히려 그래서 집중도 잘 되고 시간이 녹게 만드는 마성(?)을 지니셨다.  오늘부터 이틀간 배울 것은 데이터 수집! 분석할 데이터를 가져 오는 아주 중요한 과정이다. 다만 오늘의 내용은 그 전에 알아야 할 과정이랄까? 데이터가 클라이언트와 서버 간에 어떻게 전달되는지,그 원리를 통해서 동적 페이지에서 크롤링을 어떻게 해 오는지,파이썬에서 클래스란 무엇인지 등을 배웠다.          웹 크롤링 이론 클라이언트 - ..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 5주차 1일. 데이터 분석 : 이변량 분석(2)

목차1. 이변량 분석 : 범주 → 범주2. 이변량 분석 : 숫자 → 범주 1차 미프도 잘 끝나고, AICE Associate도 그럭저럭 쳤고! 바쁘던 저번주가 끝나자마자 코딩마스터스 마감과 2차 미프가 스멀스멀 다가오는 이번 주. 주말도 에이블 기자단 활동하랴, DX 10반 소식지 만들랴 정신 없이 지나갔다. 마지막 제자들 수능이랑 면접도 얼마 안 남았고 말이지 ㅎㅎ 진짜 힘내자. 10월의 나. 그래도 잡념이 잘 안 든다는 점에서 이정도 바쁜 게 딱 좋은 걸지도 모르겠다. 그럼 데이터 분석 마지막 수업이었던 오늘도,복습 드가자잇          이변량 분석 : 범주 → 범주 범주 → 범주 이변량 분석 방법론시각화교차표, mosaic, stacked bar plot수치화카이제곱검정  범주 feature로 ..

[KT AIVLE School][에이블기자단] KT 에이블스쿨 6기(DX 트랙) 4주차 후기. 1차 미니프로젝트 / 데이터 분석

오프닝데이 이래 가장 바빴던 한 주. 미니프로젝트랑 데이터 분석 이야기 뿐이다만,그만큼 밀도(?)있는 경험이었다..월화수목금미니프로젝트 1차데이터 분석     1차 미니프로젝트 미니프로젝트. 이름과 다르게 임팩트가 꽤 컸다. 애초에 대학원(인문계열) - 학원 출신인 나에게 '프로젝트'는 너무나 먼 단어였기에...    미니프로젝트는 이틀 간 진행되고, 첫날과 둘째 날 별개의 과제를 받아조원들과 함께 해결하는 것이 목표다. 그렇게 긴장을 가지고 받은 첫 미니프로젝트 과제,   고객 데이터를 바탕으로 이탈 고객을 미리 예측하고,이에 적합한 이탈 방지 프로모션을 제안하라.  ...같은 멋들어진 건 아니고, 아직 그럴 짬이 못 된다.위의 상황에서 전처리에 해당하는 구간을 진행하고 코드를 리뷰하는 것이었다. Cu..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 4주차 5일. 데이터 분석 : 이변량 분석(1)

목차1. 이변량 분석 : 수치 → 수치2. 이변량 분석 : 범주 → 수치3. 평균과 분산에 대하여 내일 AICE. 급하다. 빠르게 가자.    이변량 분석 : 수치 → 수치 지난 시간에 가설에 대해 배웠다. 이변량 분석은 결국 x가 y에 영향을 끼치는지를 보는 가설 검정 과정이라고 할 수 있겠지. 데이터사이언스가 늘 그렇듯이 자료의 타입(범주형/수치형)에 따라 분석 방법이 다르다. 그중 첫번째. x도 수치고 y도 수치인 경우를 보자.  이변량 분석은 일반적으로 시각화와 수치화를 통해 진행된다. 수치 → 수치 이변량 분석 방법론시각화scatterplot, regplot, jointplot, pairplot, heatmap수치화상관계수, 상관분석    시각화1. scatterplot  산점도. 하나의 row..