안녕하세요!
드디어 ADsP 마지막 과목인 3과목 요약정리 포스팅 시작해 보겠습니다!

1. 데이터 마트(DM)
- 특정 주제에 맞게 데이터를 모아 놓은 소규모 데이터 웨어하우스
- 원천 데이터 수집 -> ETL -> DW -> DM
1) 원천 데이터 수집
- 운영 DB, 로그, 외부 데이터 등 형식도 제각각인 말 그대로 원시 데이터
2) 데이터 웨어 하우스
- 전사 데이터를 통합하고, 정제하고, 변환하여 로드함(ETL) => DW(통합 데이터)
- 시계열성(과거 히스토리 관련 데이터 적재), 비휘발성(읽기 전용, 실시간 X)
- 큰 냉장고라고 생각하면 됨
3) 데이터 마트
- DW로부터 특정 부서나 목적에 맞게 분리한 데이터
- 마케팅용, 영업용 등 필요한 것만 모아 놓은 소규모 DW

2. EDA (탐색적 자료 분석)
- 모델링 전에 데이터의 구조, 이상치, 패턴 등을 파악하기 위해 진행
- 데이터의 의미를 파악하기 위해 통계 및 시각화를 진행
1) EDA 4가지 주제
(1) 저항성의 강조 : 극단값(이상치)에 영향을 덜 받는 통계량 중시
=> 자료 변동에 민감하지 않은 중앙값, 사분위수 활용 / 이상치에 민감한 평균 사용 (X)
(2) 잔차 계산 : 관측값들이 주된 경향 즉, 추세로부터 얼마나 벗어나 있는지 확인하는 척도
=> 이상치, 패턴 구조적 문제 발견
(3) 자료변수의 재표현 : 원래 변수를 적당한 척도로 변환하여 분석을 쉽게 함
=> 로그 변환, 분포를 더 대칭적으로 만들거나 관계를 선형에 가깝게 만들기 등
(4) 그래프를 통한 현시성 : 그래프 시각화를 바탕으로 데이터 특징 직관적이고 효율적으로 파악
=> 히스토그램, 박스플롯, 산점도 등
3. 결측치 처리
1) 단순 대치법
- 완전 분석법 : 결측값 삭제
- 평균 대치법 : 비조건부(단순 평균으로 대치) / 조건부(다른 변수와의 관계를 고려해 회귀분석 결과로 대치)
- 단순 확률 대치법 : 확률적으로 선택하여 대치
Hot-Deck : 현재 데이터 셋에서 비슷한 성향으로 대체
Cold-Deck : 유사한 외부 출처에서 비슷한 성향으로 대체
Nearest Neighbor : 바로 가까운 응답으로 대체
2) 다중 대치법
- 결측치를 한 번만 채우지 않고, 여러 번 다른 값으로 대치한 뒤 결과를 종합하는 방법
- 대치 -> 분석 -> 결합
* 일반 대치법은 결측치가 한 값으로 확정해 고정값이 되기 때문에, 불확실성을 무시해서 분산이 실제보다 작아짐
그러나 다중 대치법은 결측치의 불확실성을 반영하여 데이터 간 변동을 유지하기 때문에 분산 과소 추정 문제 해결 가능
4. 이상치 처리
- 이상치는 의미 있는 데이터일 수도 있기 때문에 항상 제거하진 않음.
1) ESD
- 평균으로부터 표준 편차의 3배 넘어가는 데이터는 이상값으로 판단
2) 사분위수
- 하한 Q1 - (1.5 * IQR) 보다 작거나
- 상한 Q3 + (1.5 * IQR) 보다 클 때 이상값으로 판단
=> 여기서 IQR = Q3 - Q1 / Q2는 중앙값
=> 박스플롯에서 그래프가 넓게 분포되어 있을 때 분산이 더 큼(퍼져있는 정도)
3) Z-Score
- 데이터를 표준화(평균 0, 표준편차 1) 후, Z값이 일정 임계 값을 초과할 경우 이상치로 판단
- 보통 ∣Z∣> 2 혹은 ∣Z∣> 3을 임계 값으로 잡음
4) DBScan
- 데이터의 밀도를 기반으로 밀도가 적은 부분의 데이터 즉, 주변에 이웃이 거의 없는 점을 이상치로 판단
- 고밀도 영역 : 정상 데이터
- 저밀도 영역 : 이상치(Noise)
=> 군집 기반 알고리즘
5. 통계 분석
1) 질적 척도 (계산 의미 X)
- 명목척도 : 어느 집단에 속하는지만 구분 / 분류 (순서 의미 X, 대소비교 X, 사칙연산 X)
- 순서(서열)척도 : 서열관계 존재 (순서 의미 O, 간격 의미 X, 사칙연산 X)
2) 양적 척도 (계산 의미 O)
- 등간(구간) 척도 : 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능 (0 상대적, 곱셈, 나눗셈 X -> 2배 의미 없음, 비율 비교 X) ex. 온도, IQ, 지수, 연도, 시험 점수
=> 얼마나 차이가 나냐만 가능
ex. 0도가 '온도가 없음'이 아니라 그냥 기준점임.
ex. 20도는 10도의 2배가 아님
ex. 시험점수 0점은 '값의 최소' 일 수는 있어도, 속성의 완전한 부재(절대적 0)는 아님.
- 비율척도 : 절대적 기준 0이 존재. 사칙연산 가능, 가장 많이 수집되는 데이터
ex. 나이, 키, 몸무게, 매출
ex. 나이 0 : '시간'이라는 물리량 즉, 출생 이후 경과한 시간이 0이므로 자연적인 출발점이므로 절대적 기준 0
'AI 관련 자격증' 카테고리의 다른 글
| ADsP 자격증 요약 정리(9) - 3과목 R 기초 통계량(기초 통계) (0) | 2026.02.05 |
|---|---|
| ADsP 자격증 요약 정리(8) - 3과목 R기초 확률 / 통계 개념 (0) | 2026.02.05 |
| ADsP 자격증 요약 정리(6) - 2과목 분석 마스터 플랜 (1) | 2026.02.04 |
| ADsP 자격증 요약 정리(5) - 2과목 데이터 분석 과제 (1) | 2026.02.04 |
| ADsP 자격증 요약 정리(4) - 2과목 데이터 분석 기획 (0) | 2026.02.04 |