ADsP의 꽃, Part 3.
Part 3의 꽃, 통계분석.
분량이 다른 범위의 2~3배 정도 되는 것 같다.
조바심 내지 말고 천천히 가 보자.
3 - (4). 통계 분석
<통계분석의 이해>
총조사 = 전수조사
표본조사 : 당연히 대체로 표본조사 실시
- 모집단(Ω)
- 원소 : 모집단의 개체라는 점 주의
- 표본(s, χ)
- 모수(Parameter, δ, μ) : 표본을 통해 구하려는 모집단의 정보(target) 흑백요리사 강점기라 안 잊혀진다.
모수의 예로는모평균, 모분산, 모비율, 모표준편차, 모상관관계 등이 있다.
샘플링 방법
단순 랜덤 추출법 (Simple Random Sampling) |
각 샘플에 index를 주고 임의의 n개 추출 비복원추출(중복 불가) or 복원추출(중복 가능) |
계통추출법 (Systemic Sampling) |
동일하게 구간을 나눈 후 각 구간별 K번쨰 위치의 것을 추출 |
집락추출법 (Cluster Random Sampling) |
군집을 구분해서 군집별로 단순 랜덤 추출 시행 → 추가 샘플링 가능성 O |
층화추출법 (Stratified Random Sampling) |
계층화된 모집단의 경우, 각 계층을 고루 대표하도록 계층별로 랜덤 추출 |
측정 방법
질적척도 | 명목척도 | 대상이 어느 집단에 속하는지를 나타냄 | 성별, 출생지 |
순서척도 | 대상의 서열관계를 나타냄 | 선호도, 신용등급, 학년 | |
양적척도 | 구간척도 | 속성의 상대적 양을 측정함. 구간 사이의 간격이 의미가 있음. |
온도, 지수 |
비율척도 | 속성의 절대적 양을 측정함 0이라는 기준이 존재함 곱하기/나누기가 가능 구간 사이의 비율이 의미가 있음 가장 많은 정보를 가짐 |
무게, 나이, 시간, 거리 |
일단 질적척도 = 범주형 데이터, 양적척도 = 수치형 데이터, 명목/순서척도 = 명목형/순서형 데이터인데...
헷갈릴 수 있는 부분이 구간척도와 비율척도.
구간척도는 척도 간 가감만 가능하다. 또 음수 개념이 있을 수 있다.
ex) 30도보다 10도 낮으면 20도. (O) // 10도보다 2배 더우면 20도(x)
비율척도는 사칙연산이 모두 가능하다. 음수가 있을 수 없다.
비율척도가 가진 정보의 양이 가장 많다고 하는데,
조금 찾아 보니 흥미로운 자료가 있었다.
확률
수학 좀 열심히 할걸
표본공간(Ω) | 실험의 모든 결과들의 집합 |
사건(E) | target, 표본공간의 부분집합 |
확률(P(E)) | n(E) / n(Ω) |
원소 | record |
당연한 것들이지만 용어가 조금 다르니 주의.
확률변수 | 확률 + 변수 값이 변할 확률이 있는 변수 ex) 표본평균 : 표본을 어떻게 뽑느냐에 따라 달라짐 |
확률변수 개념이 애매한데, 예를 들어 보자.
'동전 던지기의 결과'라는 사건을 설정해 보자.
표본공간은 동전을 던져 앞면이 나오는 사건과 뒷면이 나오는 사건의 집합이다.
이때 앞면을 1, 뒷면을 0으로 정의하면
표본공간(Ω) = {앞면이 나옴, 뒷면이 나옴}
사건(E) = {1, 0}
이때 각각의 사건(E)들은 0.5라는 확률을 갖는다.
그럼 이제 각 사건들을 X라는 변수에 담아 보자. (X = 1 또는 X = 0)
이때 X는 1(또는 0)이라는 사건과 0.5라는 확률을 함의하는 변수이다.
이게 확률변수다.
따라서 확률변수는 정의역이 표본공간, 치역이 실수값(위의 예에서는 0.5)인 함수라 할 수 있다.
이 예에서는 확률변수에 할당되는 값들이 1, 0이니까 이산형 확률변수이다.
표본공간이 '철수의 10년 후 키'이런 거라면 연속형 확률변수가 될 수 있겠지...?
덧셈정리, 곱셈정리도 알아둬야 한다.
- 덧셈정리
사건이 일어날 확률 P(A) 또는 P(B) = P(A∪B) = P(A) + P(B) - P(A∩B)
사건 B가 일어났는데 사건 A가 일어날 조건부확률 P(A|B) = P(A∩B) / P(B)
- 덧셈정리(배반사건일 때)
어느 한 쪽만 일어날 확률 P(A∪B) = P(A) + P(B) (교집합이 없으므로)
- 곱셈정리(독립사건일 때)
동시에 일어날 확률 P(A∩B) = P(A) * P(B)
조건부확률 P(A|B) = P(A)
확률분포
각 확률변수들의 값과 확률을 나타낸 것.
ex) 동전 던지기의 확률분포 : (0, 0.5), (1, 0.5)
- 이산형 확률변수의 확률분포
베르누이 확률분포 | 이진 분류의 확률분포 | 동전 던지기, 합격/불합격, 안타 침/못침 |
이항분포 | 베르누이 시행을 n번 해서 k번 성공할 확률 확률 p가 극단적이지 않고 n이 충분히 크면 정규분포 닮아감 |
|
기하분포 | 성공률 p의 베르누이 시행에서 첫 성공까지 x번 실패할 확률 |
|
다항분포 | 다중 분류의 확률분포 | |
포아송분포 | 정해진 시간 내에 어떤 사건이 일어날 횟수 기댓값의 분포 |
- 연속형 확률변수의 확률분포
균일분포 | 모든 확률변수가 균일한 확률 | 다트 |
정규분포 | 평균이 μ(모평균), 표준편차가 δ(모표준편차)인 분포 | |
지수분포 | 사건 발생까지의 경과시간에 대한 확률분포 | |
t 분포 | 표준정규분포처럼 생김 두 집단 평균이 동일한지 판단 (범주 -> 수치) |
|
x² 분포 | 두 집단 간의 동질성 검정에 쓰임 (범주 -> 범주) |
|
F 분포 | 두 집단 간 분산의 동일성 검정에 쓰임 |
'자격증 공부 > ADsP' 카테고리의 다른 글
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(3). 회귀분석 (0) | 2024.10.22 |
---|---|
[ADsP] ADsP 요점정리 : Part 3. 통계 분석(2). 기초 통계분석 (0) | 2024.10.21 |
[ADsP] ADsP 요점정리 : Part 3. 데이터 마트 (0) | 2024.10.17 |
[ADsP] ADsP 요점정리 : Part 3. 데이터 분석 개요 / R 프로그래밍 기초 (3) | 2024.10.16 |