머신러닝 4

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 8주차 1일. 머신러닝 - 비지도학습(1). 차원축소(PCA, t-SNE) 클러스터링(K-Means)

비지도학습 개요 오랜만에 Data 기반 비즈니스 문제 해결 방법론 : CRISP-DM을 보자.  1. Business Understanding : 비즈니스 문제 정의, 데이터 분석 목표 설정, ,초기 가설 수립2. Data Understanding : 분석을 위한 구조 만들기, EDA & CDA3. Data Preparation : 결측치 처리, 가변수화, 스케일링4. Modeling5. Evaluation : 기술적/비즈니스적 관점에서 평가 이중에 우리가 지금 공부하고 있는 게 모델링. 그중에서도 비지도학습니다.모델링이란 것은 결국 데이터로부터 패턴을 찾아, 가능한 오차가 적은 수학식을 만드는 과정이다.'가능한 오차가 적은 수학식'이라는 건, 결국 주어진 문제에 최적인 가중치(+편향)를 찾으란 거지.이..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 3일. 머신러닝 - 지도학습(3). KNN 모델, Decision Tree 모델

박차를 가하고 있는 머신러닝 3일차. 점점 수학 비중이 늘어난다 괴롭다 일단 수업들으면서 이해한 만큼만 주절주절 적어 본다.       기본 알고리즘(2). KNN(K-Nearest Neighbor) KNN( K-Nearest Neighbor, K 최근접 이웃)은 train 데이터를 산점도로 쫙 나타낸 다음에,(따라서 fit() 과정은 그냥 산점도를 그리는 과정이다. = 연산이 단순하다.) 주어진 test 데이터를 이 산점도에 찍은 후그 근처에 있는 점들(이웃, Nearest Neigbor) K개로부터 답을 구하는 모델이다. Linear Regression과 달리 회귀와 분류 양쪽에 다 쓸 수 있다. 회귀는 이웃들의 평균, 분류는 이웃들의 최빈값을 답으로 뱉으면 되니까.  그런 이유로 KNN에서는 이웃의..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 2일. 머신러닝 - 지도학습(2). 분류 평가지표 심화, Linear 모델

머신러닝 2일차. 대충 그런게 있다-라고 알고 애써 멀리해 왔던 모델링 수학이 본격적으로 시작되었다. 그야말로 하늘은 높고 공부할 건 늘어나는 가을이다.             모델 평가지표 지난 포스팅(https://guoyee94.tistory.com/40)에서 다룬 모델들의 평가지표. 아무래도 좀 모자란 부분이 보이니까 한번만 더 짚는다. 다시 한 번 머신러닝의 평가지표를 살펴 보자.  회귀 문제회귀MAE(Mean Absolute Error)평균절대오차Σ(오차의 절댓값) ÷ 데이터 수MSE보다 직관적, 이상치에 민감하지 않음 MSE(Mean Squared Error) 평균제곱오차Σ(오차의 제곱) ÷ 데이터 수MAE보다 비직관적, 이상치에 민감함RMSE(Root Mean Squared Error)  √..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 7주차 1일. 머신러닝 - 지도학습(1). 머신러닝 지도학습 기초 / 분류 문제/ 회귀 문제 / 평가 지표

드디어 머신러닝이다. 아무래도 코딩이 서툰 입장에서는템플릿 딱딱 정해져 있는 머신러닝이 편하게 느껴지긴 하는듯. 최근 TIL에만 하루에 4시간씩 소비하고 있었는데,AICE 준비하면서 그나마 미리 알아둔 부분이라 다행이다. TIL도 중요하지만 이미 넣어버린 ADsP, SQLD 어쩔거야...잽싸게 복습 끝내고 준비시간을 갖도록 한다.    머신러닝이란 넓은 의미는 뭐... 넣어 두고,좁은 의미로 머신러닝이란컴퓨터에게 데이터를 x(feature), y(target) 형태로 줌으로써x와 y가 어떤 관계를 가지고 있는지 학습시키는 것이다.  우리가 학습을 시키는 대상, 또는 학습을 완료한 주체를 '모델'이라고 부르며,이 모델에게 실제 데이터(x)를 줘서 우리는 알아내지 못하는 y를 예측시키는 것이 궁극적 목적이다..