자격증 공부/ADsP

[ADsP] ADsP 요점정리 : Part 3. 통계 분석(1). 통계분석의 이해

guoyee94 2024. 10. 19. 11:23

 

ADsP의 꽃, Part 3.

 

Part 3의 꽃, 통계분석.

 

분량이 다른 범위의 2~3배 정도 되는 것 같다.

 

조바심 내지 말고 천천히 가 보자.

 


 

3 - (4). 통계 분석

 

<통계분석의 이해>

 

총조사 = 전수조사

표본조사 : 당연히 대체로 표본조사 실시

  - 모집단(Ω)

  - 원소 : 모집단의 개체라는 점 주의

  - 표본(s, χ)

  - 모수(Parameter, δ, μ) : 표본을 통해 구하려는 모집단의 정보(target) 흑백요리사 강점기라 안 잊혀진다.

모수의 예로는모평균, 모분산, 모비율, 모표준편차, 모상관관계 등이 있다.

 

 

 

샘플링 방법

단순 랜덤 추출법
(Simple Random Sampling)
각 샘플에 index를 주고 임의의 n개 추출
비복원추출(중복 불가) or 복원추출(중복 가능)
계통추출법
(Systemic Sampling)
동일하게 구간을 나눈 후 각 구간별 K번쨰 위치의 것을 추출
집락추출법
(Cluster Random Sampling)
군집을 구분해서 군집별로 단순 랜덤 추출 시행 → 추가 샘플링 가능성 O
층화추출법
(Stratified Random Sampling)
계층화된 모집단의 경우,
각 계층을 고루 대표하도록 계층별로 랜덤 추출

 

 

 

측정 방법

질적척도 명목척도 대상이 어느 집단에 속하는지를 나타냄 성별, 출생지
순서척도 대상의 서열관계를 나타냄 선호도, 신용등급, 학년
양적척도 구간척도 속성의 상대적 양을 측정함.
구간 사이의 간격이 의미가 있음.
온도, 지수
비율척도 속성의 절대적 양을 측정함
0이라는 기준이 존재함
곱하기/나누기가 가능
구간 사이의 비율이 의미가 있음
가장 많은 정보를 가짐
무게, 나이, 시간, 거리
일단 질적척도 = 범주형 데이터, 양적척도 = 수치형 데이터, 명목/순서척도 = 명목형/순서형 데이터인데...
헷갈릴 수 있는 부분이 구간척도비율척도.

구간척도는 척도 간 가감만 가능하다. 또 음수 개념이 있을 수 있다.
ex) 30도보다 10도 낮으면 20도. (O)   //   10도보다 2배 더우면 20도(x)

비율척도사칙연산이 모두 가능하다. 음수가 있을 수 없다.

비율척도가 가진 정보의 양이 가장 많다고 하는데,
조금 찾아 보니 흥미로운 자료가 있었다.
출처 : https://blog.naver.com/angryking/222366897282

 

 

 

확률

수학 좀 열심히 할걸

표본공간(Ω) 실험의 모든 결과들의 집합
사건(E) target, 표본공간의 부분집합
확률(P(E)) n(E) / n(Ω)
원소 record

 

당연한 것들이지만 용어가 조금 다르니 주의.

 

확률변수 확률 + 변수
값이 변할 확률이 있는 변수
ex) 표본평균 : 표본을 어떻게 뽑느냐에 따라 달라짐
확률변수 개념이 애매한데, 예를 들어 보자.

'동전 던지기의 결과'라는 사건을 설정해 보자.
표본공간은 동전을 던져 앞면이 나오는 사건과 뒷면이 나오는 사건의 집합이다.
이때 앞면을 1, 뒷면을 0으로 정의하면

표본공간(Ω) = {앞면이 나옴, 뒷면이 나옴}
사건(E) = {1, 0}

이때 각각의 사건(E)들은 0.5라는 확률을 갖는다.
그럼 이제 각 사건들을 X라는 변수에 담아 보자. (X = 1 또는 X = 0)
이때 X는 1(또는 0)이라는 사건과 0.5라는 확률을 함의하는 변수이다.
이게 확률변수다.

따라서 확률변수는 정의역이 표본공간, 치역이 실수값(위의 예에서는 0.5)인 함수라 할 수 있다.

이 예에서는 확률변수에 할당되는 값들이 1, 0이니까 이산형 확률변수이다.
표본공간이 '철수의 10년 후 키'이런 거라면 연속형 확률변수가 될 수 있겠지...?
덧셈정리, 곱셈정리도 알아둬야 한다.

  - 덧셈정리
사건이 일어날 확률 P(A) 또는 P(B) = P(A∪B) = P(A) + P(B) - P(A∩B)
사건 B가 일어났는데 사건 A가 일어날 조건부확률 P(A|B) = P(A∩B) / P(B)

 - 덧셈정리(배반사건일 때)
어느 한 쪽만 일어날 확률 P(A∪B) = P(A) + P(B) (교집합이 없으므로)

 - 곱셈정리(독립사건일 때)
동시에 일어날 확률 P(A∩B) = P(A) * P(B)
조건부확률 P(A|B) = P(A)

 

 

 

확률분포

 

각 확률변수들의 값과 확률을 나타낸 것.

ex) 동전 던지기의 확률분포 : (0, 0.5), (1, 0.5)

 

- 이산형 확률변수의 확률분포

베르누이 확률분포 이진 분류의 확률분포 동전 던지기, 합격/불합격, 안타 침/못침
이항분포 베르누이 시행을 n번 해서 k번 성공할 확률
확률 p가 극단적이지 않고 n이 충분히 크면 정규분포 닮아감

기하분포 성공률 p의 베르누이 시행에서 첫 성공까지 x번 실패할 확률

다항분포 다중 분류의 확률분포  
포아송분포 정해진 시간 내에 어떤 사건이 일어날 횟수 기댓값의 분포  

 

 

 - 연속형 확률변수의 확률분포

균일분포 모든 확률변수가 균일한 확률 다트
정규분포 평균이 μ(모평균), 표준편차가 δ(모표준편차)인 분포  
지수분포 사건 발생까지의 경과시간에 대한 확률분포  
t 분포 표준정규분포처럼 생김
두 집단 평균이 동일한지 판단
(범주 -> 수치)
 
x² 분포 두 집단 간의 동질성 검정에 쓰임
(범주 -> 범주)
 
F 분포 두 집단 간 분산의 동일성 검정에 쓰임