AI 관련 자격증

ADsP 자격증 요약 정리(9) - 3과목 R 기초 통계량(기초 통계)

수진97 2026. 2. 5. 14:50

안녕하세요!

저번 포스팅에 이어 3과목 기초 통계량 개념에 대해 정리해 보겠습니다.

1. 기초통계량

(1) 중심 경향성 측면

1) 평균

- 이상치에 민감

- 대표성은 좋지만 극단값에 영향 큼

 

2) 중앙값

- 이상치에 강함

- 소득, 집값 같은 데이터에서 자주 사용

 

3) 최빈값

- 범주형 데이터에도 사용 가능

 

 

* 이상치 있을 때 대푯값

- 평균 X /  중앙값 O / 최빈값 O

 

 

 

(2) 분산 정도 측면(산포도)

1) 범위(최댓값 - 최솟값)

- 이상치에 매우 민감

 

 

2) 분산

- 각 데이터가 평균에서 얼마나 떨어져 있는지를 나타내는 지표

- 값이 제곱 단위라 해석이 직관적이진 않음

 

 

3) 표준편차(Standard Deviation)

- 분산의 제곱근

- 원래 데이터와 같은 단위

- 분산보다 해석이 쉬움

 

 

 

4) 사분위수 번위(IQR)

- IQR = Q3 - Q1 (3 사분위수 - 1 사분위수)

- 데이터의 중앙 50% 범위(상위 75% - 하위 25%)

- 이상치에 강함

 

 

 

5) 변동계수(CV, Coefficient of Variation)

- 표준편차를 평균으로 나눈 백분율

- 단위가 달라도 상대적 변동성 비교 가능

- 평균이 0이면 사용 불가

 

 

 

(3) 관계 측면

1) 공분산(Covariance)

- 두 변수의 함께 변하는 정도(두 확률변수의 상관정도)

- 단위 영향을 받음

- 최소, 최댓값이 없어서 강약 비교 불가

 

- 공분산 > 0 : 양의 상관관계 (X가 커질수록 Y도 커짐)

- 공분산 < 0 : 음의 상관관계 (X가 커질수록 Y는 작아짐)

- 공분산 = 0 : 선형 관계없음(상관이 없음)

 


*두 변수가 독립이면 공분산은 0

공분산이 0이라고 두 변수가 독립이라고는 할 수 없음

 

=> 즉, 비선형 관계가 존재할 수 있음

ex. y = x^2 (U자형 그래프)

 

 

 

2) 상관계수

- 공분산의 단위와 범위 영향을 표준화하여, 상관정도를 -1 ~ 1 값으로 표현

- 단위 영향받지 않아서 비교 가능

- 공분산은 방향만 알려준다면, 상관계수는 방향 + 강도 알 수 있음

 

 

- 상관계수 = 1 : 완전한 양의 선형관계(정비례)

- 상관계수 = 0 : 상관없음

- 상관계수 = -1 : 완전한 음의 선형관계(반비례)

 

 

 

 

2. 첨도와 왜도

(1) 첨도

- 자료 분포가 얼마나 뾰족한지(꼬리가 두꺼운지) 나타내는 척도

- 첨도 = 3 (정규분포)

- 초과 첨도 = 첨도 - 3 이므로 정규분포는 3 - 3 = 0

 

 

초과 첨도 = 0 -> 정규분포

초과 첨도 > 0 -> 뾰족함 (중심에 몰림 + 꼬리 두꺼움)

초과 첨도 < 0 -> 완만함 (평평한 분포)

 

 

 

(2) 왜도

-  자료 분포의 비대칭 정도

- 왜도 = 0   -> 좌우 대칭(정규분포)

 

 

* 왜도 < 0 : 음의 왜도, 왼쪽 꼬리가 길다

 

=> 즉, 큰 값에 데이터가 몰려있다는 뜻

=> 평균값 < 중앙값 < 최빈값

(평균이 작은 쪽인 왼쪽으로 끌려가므로 가장 작음)

 

 

 

* 왜도 > 0 : 양의 왜도 , 오른쪽 꼬리가 길다

 

=> 즉, 작은 값 쪽에 데이터가 몰려 있음

=> 최빈값 < 중앙값 < 평균값

 

=> 즉, 왜도가 크다해서 값이 큰지, 분산이 큰지 알 수 없다가 맞음!!

=> 말 그대로 비대칭 정도의 모양 이야기