전체 글 76

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 10주차 1일. 딥러닝 기초(4). 총정리 + CNN

오늘은 총복습 + CNN을 배운다. ADsP도 잘 끝났고, 2주 후 SQLD, 4주 후 경영정보시각화... 바쁘다 바빠.   CIRSP-DM 한기영 강사님께서 주구장창 강조하시는 CRISP-DM. 어제 ADsP 시험에서도 요긴하게 써먹었더랬다. Business Understanding비즈니스 문제 정의가설 수립데이터 분석의 방향성 수립 Data Understanding 원본식별분석을 위한 구조 만들기 : Data Dictionary 구성, x record가 하나의 자료(사건)임을 잊지말자.EDA & CDA : 단변량분석 / 이변량분석 등 활용 Data Preparation모든 셀은 값이 있어야 한다. : NaN이 없어야 한다.모든 값은 숫자여야 한다. : 가변수화를 진행해야 한다.숫자의 범위가 일치해야 ..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 9주차 5일. 딥러닝 기초(3). 성능관리

성능 튜닝의 기본 방법 튜닝의 기본 목표는 val 성능을 잘 뽑는 것이다. 우리가 추구하는 바는 모집단을 예측하는 거니까. 따라서 모델링의 최종 지향점은 일반화 성능이다. 이를 위하여 다양한 시도를 해 볼 수 있는데,learning_rate을 조절한다거나, epochs를 바꾼다거나, node를 늘릴 수도 있겠지. 딥러닝에서 우리가 조절해야 할 하이퍼파라미터는 다음과 같다.1. Epoch 와  learning_rate - 둘이 약한 Trade-off 관계인 것처럼 다루어야 한다. - Epoch가 부족하면 학습이 채 되지 않을 수 있고, 지나치면 과적함의 위험이 커진다.2. Hidden layer의 수, node의 수 - 늘어날수록 파라미터(가중치)의 개수가 늘어난다. - 파라미터의 수가 많다 = 연결이 많..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 9주차 4일. 딥러닝 기초(2). 분류 모델링(이진 분류, 다중 분류)

ADsP 시험도 점점 다가오는 해피(?) 할로윈. 힘내서 가보자.   히든 레이어 심화 지난 시간에, 우리는 law data의 모든 feature가 히든 레이어에 할당되는 것을 보았다. 이를 Fully Connected라고 하며, Dense를 활용하여 모델을 구성한다. 하지만 히든 레이어마다 서로 다른 feature를 할당할 수도 있다.이를테면, '집값에 영향을 주는 요인'을1. 방 수, 면적, 인테리어2. 지하철 접근성, 주변 편의시설, 공원 접근성으로 나눌 수 있다. 이를 Locally Connected라고 한다. 이것은 히든 레이어가,나름대로 law feature들을 조합하여 의미있는 새로운 feature를 만들어 낸 것이라고 볼 수 있다. 이런 측면에서 보았을 때,딥러닝에서는 히든 레이어를 생성하..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 9주차 3일. 딥러닝 기초(1). 회귀 모델링

5일간의 미니프로젝트가 끝나고 다시 수업으로 돌아갈 시간. 에이블스쿨의 3 Step 중 첫 단계의 마지막 교육 과정이다. 딥러닝 기초 나흘, 심화 나흘이 지나고 나면 두 번 연달아 미니프로젝트를 하고,에이블데이까지 마치면 첫 과정이 끝나는 거지. 자, 딥러닝 가보자.  딥러닝 개요 딥러닝은 기본적으로 인간의 신경망 구조에서 영감을 얻었다. 익히 알려진 대로,우리 신경망은 자극 - 반응의 과정을 연결해 주는 역할을 한다. 당연히 자극이 다르면 반응이 다른데,파블로프의 개 실험에서 나온 것처럼 우리는 학습에 의해 이 반응을 조절한다. 곱창을 싫어하는 사람이, 어쩌다 정말 맛있게 한 번 먹고 나면 곱창 보고 침이 고일 수 있는거지.  그것처럼 딥러닝 인공신경망은,학습에 따라 입력되는 자극(= 데이터)에 따른 ..

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(3). 회귀분석

- 독립변수(x)가 종속변수(y)에 미치는 영향을 파악오차와 잔차의 차이 : 오차는 모집단 기준, 잔차는 표본집단 기준 - 회귀계수를 추정하는 방법 : 최소제곱법 잔차의 제곱합이 최소가 되는 회귀계수(a)와 절편(b)를 구하는 방법 - 회귀모형 평가 : R-square(모형으로 설명가능한 변동 / 총 변동)    ★ ★ ★ 선형성x와 y가 선형관계일 것등분산성잔차의 분산이 그르게 분포할 것정상성 = 정규성잔차가 정규분포의 특성을 가질 것Q-Q plot, 샤피로 윌그 검정, 히스토그램, 왜도/첨도 등으로 확인 가능독립성독립변수 간에는 상관관계가 없을 것   단순회귀하나의 독립변수만이 영향을 미침y = ax + b다중회귀독립변수가 둘 이상y = a1x1 + a2x2 + ... + anxn + b다항회귀독립변..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 8주차 2일. 머신러닝 - 비지도학습(2). 클러스터링 실습(K-Means, DBSCAN), 이상탐지

클러스터링 실습 실습용 데이터를 바탕으로 비지도학습을 진행해 본다. 실습용 데이터 생김새  1단계# 클러스터링에 사용할 데이터만 분리x = data.loc[:, ['Age', 'Income', 'Score']]# 클러스터링은 거리 기반이므로 스케일링scaler = MinMaxScaler()x_s = scaler.fit_transform(x)# 모델 생성, 클러스터 수(k) 판별을 위해 평가지표 저장kvalue = range(2, 21)inertia, sil_score = [], []for k in kvalue: model = KMeans(n_clusters=k, n_init='auto') model.fit(x_s) pred = model.predict(x_s) inertia.appe..

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(2). 기초 통계분석

기술통계 : 표, 그림, 통계량 등으로 자료의 특성을 정리하는 것  ex) 줄기-잎 그림, 도넛차트, 히스토그램, 상자수염그림   산포도분산, 표준편차, 사분위수, 사분위수범위, 백분위수, 변동계수, 표본평균의 표준오차분포형태왜도(비대칭 정도) : 양수면 좌편향, 음수면 우편향, 0이면 대칭 왜도가 양수면 최빈값 왜도가 음수면  평균 첨도첨도 = 0 : 정규분포 정도로 뾰족함   줄기 - 잎 그림데이터를 줄기와 잎의 모양으로 그림자료를 높은 자리의 수와 낮은 자리의 수로 분할한 뒤 전자를 '줄기', 후자를 '잎'으로 칭함.   공분산은 분산의 곱이다. 분산은 평균으로부터 어느 방향으로, 얼마나 떨어져 있는가를 나타내는데,공분산이 음이면(= 두 분산의 부호가 다르면) 둘은 음의 상관관계,공분산이 양이면(=..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 8주차 1일. 머신러닝 - 비지도학습(1). 차원축소(PCA, t-SNE) 클러스터링(K-Means)

비지도학습 개요 오랜만에 Data 기반 비즈니스 문제 해결 방법론 : CRISP-DM을 보자.  1. Business Understanding : 비즈니스 문제 정의, 데이터 분석 목표 설정, ,초기 가설 수립2. Data Understanding : 분석을 위한 구조 만들기, EDA & CDA3. Data Preparation : 결측치 처리, 가변수화, 스케일링4. Modeling5. Evaluation : 기술적/비즈니스적 관점에서 평가 이중에 우리가 지금 공부하고 있는 게 모델링. 그중에서도 비지도학습니다.모델링이란 것은 결국 데이터로부터 패턴을 찾아, 가능한 오차가 적은 수학식을 만드는 과정이다.'가능한 오차가 적은 수학식'이라는 건, 결국 주어진 문제에 최적인 가중치(+편향)를 찾으란 거지.이..

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(1). 통계분석의 이해

ADsP의 꽃, Part 3. Part 3의 꽃, 통계분석. 분량이 다른 범위의 2~3배 정도 되는 것 같다. 조바심 내지 말고 천천히 가 보자.  3 - (4). 통계 분석  총조사 = 전수조사표본조사 : 당연히 대체로 표본조사 실시  - 모집단(Ω)  - 원소 : 모집단의 개체라는 점 주의  - 표본(s, χ)  - 모수(Parameter, δ, μ) : 표본을 통해 구하려는 모집단의 정보(target) 흑백요리사 강점기라 안 잊혀진다.모수의 예로는모평균, 모분산, 모비율, 모표준편차, 모상관관계 등이 있다.   샘플링 방법단순 랜덤 추출법(Simple Random Sampling)각 샘플에 index를 주고 임의의 n개 추출비복원추출(중복 불가) or 복원추출(중복 가능)계통추출법(Systemic ..

[TIL] [KT AIVLE School] 에이블스쿨 DX 트랙 7주차 5일. 머신러닝 - 지도학습(5). Ensemble - Voting, Bagging, Boosting, Stacking / Random Forest, XGBoost, LGBM / 언더샘플링, 오버샘플링

오늘로 머신러닝 - 지도학습편이 끝났다. AICE 준비하면서 생긴 여러 의문들을 해결할 수 있었던 것 같다.기적의 공부법 선암기 후이해      앙상블 알고리즘이란 지금까지 배운 기본 알고리즘들은 과적합에 취약했다. 이는 감당할 수 있는 복잡성에 한계가 있다는 뜻이고,자연스레 많은 데이터를 사용하기 힘들게 된다. 앙상블 알고리즘(Ensemble)은 그 이름대로,복잡성에 한계가 있는 알고리즘을 여러 개 사용하여힘을 합쳐 문제를 해결하는 알고리즘을 총칭하는 말이다. 앙상블 알고리즘은 몇 유형으로 나뉘는데, 그게 뭐냐면보팅(Votiong)같은 데이터로 서로 다른 알고리즘을 학습 배깅(Bagging)서로 다른 데이터로 같은 알고리즘을 학습RandomForest부스팅(Boosting)점진적으로 같은 알고리즘을 발..