안녕하세요!
저번 포스팅에 이어 3과목 기초 통계량 개념에 대해 정리해 보겠습니다.

1. 기초통계량
(1) 중심 경향성 측면
1) 평균
- 이상치에 민감
- 대표성은 좋지만 극단값에 영향 큼
2) 중앙값
- 이상치에 강함
- 소득, 집값 같은 데이터에서 자주 사용
3) 최빈값
- 범주형 데이터에도 사용 가능
* 이상치 있을 때 대푯값
- 평균 X / 중앙값 O / 최빈값 O
(2) 분산 정도 측면(산포도)
1) 범위(최댓값 - 최솟값)
- 이상치에 매우 민감
2) 분산
- 각 데이터가 평균에서 얼마나 떨어져 있는지를 나타내는 지표
- 값이 제곱 단위라 해석이 직관적이진 않음

3) 표준편차(Standard Deviation)
- 분산의 제곱근
- 원래 데이터와 같은 단위
- 분산보다 해석이 쉬움

4) 사분위수 번위(IQR)
- IQR = Q3 - Q1 (3 사분위수 - 1 사분위수)
- 데이터의 중앙 50% 범위(상위 75% - 하위 25%)
- 이상치에 강함
5) 변동계수(CV, Coefficient of Variation)
- 표준편차를 평균으로 나눈 백분율
- 단위가 달라도 상대적 변동성 비교 가능
- 평균이 0이면 사용 불가

(3) 관계 측면
1) 공분산(Covariance)
- 두 변수의 함께 변하는 정도(두 확률변수의 상관정도)
- 단위 영향을 받음
- 최소, 최댓값이 없어서 강약 비교 불가
- 공분산 > 0 : 양의 상관관계 (X가 커질수록 Y도 커짐)
- 공분산 < 0 : 음의 상관관계 (X가 커질수록 Y는 작아짐)
- 공분산 = 0 : 선형 관계없음(상관이 없음)
*두 변수가 독립이면 공분산은 0
공분산이 0이라고 두 변수가 독립이라고는 할 수 없음
=> 즉, 비선형 관계가 존재할 수 있음
ex. y = x^2 (U자형 그래프)
2) 상관계수
- 공분산의 단위와 범위 영향을 표준화하여, 상관정도를 -1 ~ 1 값으로 표현
- 단위 영향받지 않아서 비교 가능
- 공분산은 방향만 알려준다면, 상관계수는 방향 + 강도 알 수 있음
- 상관계수 = 1 : 완전한 양의 선형관계(정비례)
- 상관계수 = 0 : 상관없음
- 상관계수 = -1 : 완전한 음의 선형관계(반비례)
2. 첨도와 왜도
(1) 첨도
- 자료 분포가 얼마나 뾰족한지(꼬리가 두꺼운지) 나타내는 척도
- 첨도 = 3 (정규분포)
- 초과 첨도 = 첨도 - 3 이므로 정규분포는 3 - 3 = 0
초과 첨도 = 0 -> 정규분포
초과 첨도 > 0 -> 뾰족함 (중심에 몰림 + 꼬리 두꺼움)
초과 첨도 < 0 -> 완만함 (평평한 분포)
(2) 왜도
- 자료 분포의 비대칭 정도
- 왜도 = 0 -> 좌우 대칭(정규분포)
* 왜도 < 0 : 음의 왜도, 왼쪽 꼬리가 길다
=> 즉, 큰 값에 데이터가 몰려있다는 뜻
=> 평균값 < 중앙값 < 최빈값
(평균이 작은 쪽인 왼쪽으로 끌려가므로 가장 작음)
* 왜도 > 0 : 양의 왜도 , 오른쪽 꼬리가 길다
=> 즉, 작은 값 쪽에 데이터가 몰려 있음
=> 최빈값 < 중앙값 < 평균값

=> 즉, 왜도가 크다해서 값이 큰지, 분산이 큰지 알 수 없다가 맞음!!
=> 말 그대로 비대칭 정도의 모양 이야기
'AI 관련 자격증' 카테고리의 다른 글
| ADsP 자격증 요약 정리(10) - 3과목 R 추론 통계 (0) | 2026.02.05 |
|---|---|
| ADsP 자격증 요약 정리(8) - 3과목 R기초 확률 / 통계 개념 (0) | 2026.02.05 |
| ADsP 자격증 요약 정리(7) - 3과목 R기초 EDA와 DM (0) | 2026.02.04 |
| ADsP 자격증 요약 정리(6) - 2과목 분석 마스터 플랜 (1) | 2026.02.04 |
| ADsP 자격증 요약 정리(5) - 2과목 데이터 분석 과제 (1) | 2026.02.04 |