AI 관련 자격증

ADsP 자격증 요약 정리(8) - 3과목 R기초 확률 / 통계 개념

수진97 2026. 2. 5. 13:38

안녕하세요!

저번 포스팅에 이어서 ADsP 자격증 3과목 요약정리 포스팅을 해보겠습니다.

 

1. 확률

1) 사건 : 반복된 시행의 결과로 나타나는 표본공간의 부분 집합

=> 표본공간 S 안에 포함된 결과들의 집합

ex. 주사위 1개 -> S = {1,2,3,4,5,6}

사견 A = "짝수" = {2,4,6}

 

 

2) 표본공간 : 통계적 실험에서 일어날 수 있는 모든 가능한 결과의 집합

ex. 주사위 1개 던질 때 나올 수 있는 모든 경우의 수 S = {1,2,3,4,5,6}

 

 

3) 확률 : 어떤 사건이 발생할 확실성의 정도

- 수학적 확률 = 사건 수 / 전체 경우 수 (모든 경우가 동일한 확률일 때)

- 통계적 확률 = 실험에서 사건이 일어난 횟수 / 전체 시행 횟수

 

* 수학적 확률은 모든 경우가 동일한 확률로 발생한다고 가정하고, 이론적으로 계산한 확률

* 통계적 확률은 실제로 실험 및 관측을 여러 번 한 결과로 계산한 확률

 

 

 

4) 확률 덧셈

- 두 사건 A, B 중 하나 이상 발생할 확률

 

 

5) 조건부 확률

- 사건 B가 발생했을 때, 사건 A가 발생할 확률

 

 

6) 독립사건

- 한 사건이 다른 사건의 발생에 영향 주지 않음

- B가 일어나든 안 일어나든 A의 확률은 변하지 않음

 

ex. 사건 A = 첫 번째 주사위 2

사건 B = 두 번째 주사위 2

 

=> A와 B가 동시에 발생할 확률?

 

P(A) = 1/6

p(B) = 1/6

P(AB)= (1 / 6) × (1 / 6) = 1 / 36

 

 

ex. 두 번째 주사위가 6일 때, 첫 번째 주사위 6일 확률

P(AB) =P(A) = 1 / 6

 

 

7) 배반사건

- 두 사건이 동시에 발생할 수 없음

ex. 동전을 1번 던질 때, 앞면과 뒷면이 동시에 나올 확률 = 0

 

 

 

8) 독립 VS 배반 비교

 

 

 

2. 통계 개념

1) 확률변수 

- 표본공간의 각 원소(결과)에 숫자값을 대응시키는 함수 => 실험 결과를 숫자로 바꾸어 표현

* 확률변수는 확률이 아님!! 을 의미

 

ex. 주사위 던지기 : 확률변수 X = 1,2,3,4,5,6

 

 

2) 이산확률분포

- 셀 수 있는 값(정수, 개수, 횟수 등 이산형)을 가지는 확률변수에 각 값이 발생할 확률을 대응한 분포

- 아래 이미지 X(확률변수) / P(X)가 이산확률분포

- 확률의 합 = 1

 

 

 

3) 기댓값

- 확률변수의 장기적인 평균값(E(X)), 확률분포의 무게중심

 

 

4) 분산

- 각 값이 평균(기댓값)으로부터 얼마나 퍼져 있는지를 나타내는 값

- 평균과의 제곱편차의 기댓값

 

 

 

* E(X2) = (X^2) * P(X)

* E(X) = X * P(X)

 

5) 이항분포

- 연속된 n번의 독립 시행에서 각 시행이 성공 확률 P를 가질 때, 성공 횟수에 대한 이산확률분포

- 평균 : np

- 분산 : np(1 - p)

 

 

* 조건

- 시행 횟수 n 고정

- 각 시행은 독립

- 성공 / 실패 2가지

- 성공 확률 p로 일정

 

 

 

6) 정규분포

- 자연 현상이나 실제 데이터에서 가장 자주 나타나는 대표적인 연속확률분포

- 연속형(측정값)

- 종 모양으로 좌우 대칭이 되는 그래프

- 평균 = 중앙값 = 최빈값

 

 

 

 

7) 표준정규분포

- 평균이 0, 표준편차가 1인 정규분포

- N(0,1) OR ~0, 1

 

=> 모든 정규분포를 표준화(Z값) 해서 계산 가능

 

 

 

8) 정규분포 VS 이항분포

- 정규분포 : 연속된 값

ex. 성인의 키 분포, 미세먼지 농도, 체중

 

- 이항분포 : 이산형 즉, 횟수 / 개수

ex. 교통사고 건수

ex. 주사위 10번 던져 1이 나온 횟수

ex. 제품 10개 중 불량품 개수

 


=> 이항분포의 시행 횟수가 충분히 커지면 분포 모양이 종 모양에 가까워져서 정규분포로 근사가 가능해짐

=> 이항분포는 이산확률분포에 포함되는 개념이므로 이산확률분포 또한 확률번수가 셀 수 있는 값(정수) 여야 함.