pandas 8

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 4주차 5일. 데이터 분석 : 이변량 분석(1)

목차1. 이변량 분석 : 수치 → 수치2. 이변량 분석 : 범주 → 수치3. 평균과 분산에 대하여 내일 AICE. 급하다. 빠르게 가자.    이변량 분석 : 수치 → 수치 지난 시간에 가설에 대해 배웠다. 이변량 분석은 결국 x가 y에 영향을 끼치는지를 보는 가설 검정 과정이라고 할 수 있겠지. 데이터사이언스가 늘 그렇듯이 자료의 타입(범주형/수치형)에 따라 분석 방법이 다르다. 그중 첫번째. x도 수치고 y도 수치인 경우를 보자.  이변량 분석은 일반적으로 시각화와 수치화를 통해 진행된다. 수치 → 수치 이변량 분석 방법론시각화scatterplot, regplot, jointplot, pairplot, heatmap수치화상관계수, 상관분석    시각화1. scatterplot  산점도. 하나의 row..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 4주차 4일. 데이터 분석 : 단변량 분석

목차1. 데이터 분석 개요2. 일변량 데이터 분석 : 수치형3. 일변량 데이터 분석 : 범주형4. 가설 검정 새로운 강사님이 오시는 첫 날을 휴가로 보내고,홀로 초면인 한기영 강사님을 뵌 나. 이전 이장래 강사님과는 약간 다른 스타일이신데, 원리에 굉장히 많은 시간을 할애하신다. 뚝딱뚝딱 코드 치는 거에도 익숙해졌다 싶었는데,또 이런 강의를 들으니 낯설기도 어렵기도 하다. 내가 뭘 할 수 있니열심히 요약해야지, 어제 안 한 부분까지 해서 싹 훑어보자.  데이터분석 개요 데이터분석, DX 컨설턴트의 주 업무 중 하나이자, 지금까지 달려 온 이유. 데이터의 종류(수치형/범주형)에 따른 적절한 분석 방법을 익혀비즈니스에 도움이 되는 인사이트를 도출하는 것이 목적이다.  CRISP-DM   CRISP-DM크리스..

[KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 3주차 후기. 데이터프레임 변경 / 반장·기자단 / 코딩마스터스

늦었다. 낯설고 어렵기만 하던 에이블스쿨도 어느새 3주차에 접어들었다. 다음주면 미니프로젝트가 시작되는데...... 긴장된다 긴장돼. 진도로는 pandas 데이터프레임 전처리까지 끝났고,코딩마스터스도 한창 진행중, 내부적으로는 반장, 기자단에 스토리텔러까지 뽑은 한 주였다. 자 그럼 3주차 후기 가보자.     3주차 핵심 내용  이번 주는 추석이 껴 있어서 짧았다. 오랜만에 본가에 가서 친구들도 보고 흑역사도 하나 썼다. 노트북을 챙겨 가서 코딩마스터스 문제도 많이 풀었다. 거의... 문제에 얻어맞은 거지만. 그래도 동생(현직 개발자) 한테 디버깅하는 법도 배우고 나름 의미있게 쓴 것 같다. 여튼... 고작 이틀간만 진행됐음에도 불구하고 엄청 많은 것들을 배웠다. 3주차에 배운 것- 열 변경 : ren..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 3주차 2일. 데이터 다듬기 - 데이터프레임 변경(2)

목차 - 데이터프레임 합치기 : pd.concat(), pd.merge() - 데이터프레임 세부 조정 : rolling(), shift(), pivot(), melt()  본격적인 가을을 앞두고 마지막 pandas 수업이 끝났다. 코딩마스터스도 40문제 정도 풀었고, 다음주면 드디어 첫 미니프로젝트. 그리고 다음주 토요일은 AICE Associate 시험까지. 바빠서 힘들기도 하고, 신나기도 하는 요즘이다. 집이 점점 개판이 돼 간다 추석동안 못 했던 스터디들이 몰려 좀 많이 늦은 시간이 되었지만, 한번 가 보자.    데이터프레임 합치기 저번 AICE에서 나에게 공포를 선사했던 concat()과 merge() 되시겠다. 아무래도 흔히 보는 xlsx 파일은 시트 하나하나가 데이터프레임이고,데이터베이스 무..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 3주차 1일. 데이터 다듬기 - 데이터프레임 변경

목차 - 열 변경 : rename(), drop(), map(), replace() - 결측치 처리 : isna(), dropna(), fillna(), ffill(), bfill(), interpolate() - 범주값 처리 : cut(), qcut(), one-hot encoding  연휴가 끝나고 돌아온 TIL. 오늘은 데이터프레임의 열 이름 변경, 생성, 삭제와 범주값 변경, 생성 그리고 결측치 및 가변수의 처리를 배웠다. 나날이 배우는 것도 많아진다만, 다음 주에 있을 AICE에 응시하는 객기를 부린 고로 오늘도 힘 내 보자.   열 변경 데이터프레임을 다루다 보면 열을 변경할 일이 많다. AICE에서 가장 먼저 요구하는 사항 역시 이 부분이니만큼 데이터 전처리의 첫단계라 할 수 있겠다.  re..

[KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 2주차 후기. 데이터 다루기 / 데이터 다듬기 / 자기소개 / 복습 스터디 / 코딩마스터스

한 주만에 쓸 거리가 많이도 쌓였다. 진도만 해도 월요일에 if문 갓 배우고 금요일에는 데이터프레임 groupby까지 했으니. 한편으로는 코딩마스터즈도 시작되고, 스터디들도 본격적으로 돌아가기 시작했다. 6년동안 학생들이랑만 부대껴 온 내가 과연 잘 이겨낼 수 있을지 기대하시라.    우선 교육 내용을 정리해 보자. 그날그날 배운 걸 TIL 탭에 열심히 정리했으니, 간단하게만 보는 걸로.      2주차 핵심 내용  배운 내용을 단순히 나열하자면 데이터 다루기 : 제어문, 함수, 정규 표현식, 파일 읽고 쓰기, 엑셀 파일 다루기, 이메일 보내기데이터 다듬기 : numpy 기초, pandas 데이터프레임 생성, 탐색, 조회, 집계 이것들을 배웠다고 할 수 있겠다. 다듬기 파트는 한 번 접해 봤던 내용들이라..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 2주차 5일. 데이터 다듬기 - pandas DataFrame 조회 / DataFrame 집계

목차 1) 데이터프레임 조회 - loc()과 iloc() 2) 데이터프레임 집계 - gruopby() 3) 집계함수   쏜살같이 흘러간 교육 2주차. 추석 연휴를 앞둔 마지막 시간이니만큼 많은 것들을 배웠다. 저번에 데이터를 요리조리 뜯어보는 과정을 배웠다면,이번에는 데이터에서 의미를 도출할 때 필요한 도구들을 배웠단 느낌이다.비슷해 보이지만 아무튼 다르다. 오늘 과정의 핵심을 요약하자면 .loc[]과 .groupby()를 들 수 있겠다. 따라서 오늘의 포스팅은 이 둘을 중심으로 진행되겠다. 강사님께서 마지막에 matplotlib.pyplot을 이용한 시각화도 다뤄 주셨는데,그래프 색깔 바꾸면서 노느라 나중에 다시 나올 내용이라고 하셔서 온전히 집중하진 못한 것 같다.    데이터프레임 조회 : loc[..

[TIL] [KT AIVLE School] KT 에이블스쿨 6기(DX 트랙) 2주차 4일. 데이터 다듬기 - numpy 기초, pandas DataFrame 생성 및 탐색

목차 1) numpy 기초 2) pandas DataFrame의 구조와 기능  파이썬 문법을 배우던 데이터 다루기 강의가 끝나고, 데이터 다듬기로 넘어왔다. 데이터 다듬기부터는 실제 데이터테이블(보통 수백 개 이상의 데이터가 있다.)을 다루게 되며,이를 다루기 위해 정보처리 라이브러리 numpy와 pandas, 시각화 라이브러리 matplotlib과 seaborn을 쓴다. 오늘은 numpy의 배열(array)과 pandas의 Series, DataFrame에 대해 배우고,이를 다루기 위해 DataFrame의 속성과 pandas 함수에 대해 알아보자.   numpy 기초 numpy는 본질적으로 수학적 처리를 위한 라이브러리이다. 강사님께서는 데이터분석 측면에서 기반이 된다는 정도만 알고 있으면 된다셨다. ..