AI 관련 자격증

ADsP 자격증 요약 정리(4) - 2과목 데이터 분석 기획

수진97 2026. 2. 4. 10:50

이어서 ADsP 자격증 2과목 데이터분석 기획 관련하여 포스팅하겠습니다!

 

1. 데이터 분석 수행

방법을 아니까 -> Insight

대상을 아니까 -> Solution

(위 2개가 가장 헷갈림)

 

 

 

 

1) 과제 중심적 접근

- 빠른 해결, 스피드가 중요

- 단기간 성과 창출을 목표

 

 

2) 장기적 마스터 플랜

- 중·장기 전략 중심

- 데이터 구조·프로세스 재정의

 

- 빠른 해결이 아니라 문제에 대한 원인 정의, 설명이 포커스

 

 

 

 

 

2. 분석 방법론

1) 절차

- 분석을 어떤 순서로 진행할 것인지(단계 흐름, 전체 로드맵)에 대해 설계

 

* CRISP-DM 단계

1) 업무 이해 : 업무 목적 결정, 프로젝트 계획 수립

2) 데이터 이해 : 초기 데이터 수집, 데이터 탐색 및 품질 검증, EDA

3) 데이터 준비: 데이터 선택/정제, 생성, 통합

4) 모델링: 모델링 기법 선택, 모델 생성 및 평가

5) 평가 : 분석 결과 평가, 모델링 프로세스 재검토, 향후 모델 적용 단계 검토

6) 전개 : 전개 계획 수립, 최종 보고서 및 회고(리뷰) 작성, 프로젝트 재검토 후 유지보수 계획 수립

7) 반복 :  평가와 전개 단계에서 결과 실패 시, 업무 이해로 다시 돌아가서 위 프로세스 과정 계속 반복..

 

* KDD 분석

1) 데이터 선택 : 원시 데이터(원본) 선택

2) 전처리 : NaN값이나 이상치 등 전처리하여 모델링에 쓸 수 있는 데이터로 가공

3) 변환 : 변수 선택하여 차원을 축소하는 변환 과정

4) 마이닝 : 알고리즘 선택해 분석 수행

5) 평가 : 결과 해석 후, 실패 시 위 단계 다시 반복

출처 : https://kun-hee.tistory.com/entry/KDD-%EB%B6%84%EC%84%9D-%EB%B0%A9%EB%B2%95%EB%A1%A0

 

 

 

2) 방법

- 각 단계에서 무엇을 할 것인지

- 분석 접근 방식, 문제 해결 전략

- 분류 / 회귀모델

 

* 분석 모델 유형

1) Waterfall 모델 : 위에서 아래로 쭉 절차대로 수행해야 하는 모델 (현재 단계가 완료가 안되면 다음 단계로 못 넘어감)

2) 애자일 모델 : 고객 피드백을 주기적으로 반영하며 짧게 짧게 계속해서 반복 개발 수행

3) 나선형 모델 : 위험요소 제거에 초점을 두어 여러 개발 과정을 거쳐 점진적으로 완성. 

 

4) 계층형 프로세스 모델 : Stage -> Task -> Step

- 단계(Stage)에서는 Baseline으로 관리하며 분석 프로젝트의 큰 흐름 관리 => 일정 / 목표 / 범위를 관리하는 기준점이 Baseline

- 태스크(Task)는 각 단계 안에서 수행해야 할 주요 작업 묶음

- 스탭 (Step)Work Package로, 짧은 기간 내 수행 가능한 작업 단위 (실행 가능한 최소 단위)

 

=> 빅데이터 분석 방법론의 기반이 되는 모델이 계층적 프로세스 모델

 

 

 

*  빅데이터 분석 방법론의 단계별 태스크 정리

 

<1> Planning(분석 기획)

- 비즈니스 이해 및 범위 설정

=> 구조화된 프로젝트 정의서 (SOW - Statement of Work) : 프로젝트 정의 및 계획 수립(목적, 범위, 산출물, 일정)

 

- 기존에 잘 구현된 유사 시나리오 활용 및 유스케이스 탐색

- 장애요인 및 대응 전략 등 프로젝트 위험계획 수립 (회피 / 전이 / 완화 / 수용)

 

* 회피 - 위험 자체를 제거

* 전이 - 위험을 외부로 이전

* 완화 - 발생 가능성과 영향을 줄임

* 수용 - 위험 감수

 

 

 

<2> Preparing(데이터 준비)

- 필요한 데이터 정의

- 데이터 수집 및 정합성 점검

- 데이터 스토어 설계 : 분석 목적에 맞게 저장소 구조 설계

 

* 정형 - RDB, DW / 반정형 - JSON, XML / 비정형 - 로그, 이미지, 영상

 

 

 

<3>  Analyzing(데이터 분석)

- 텍스트 분석, 분석용 데이터 준비

- 탐색적 분석(EDA) : 기초 통계량과 시각화를 통해 데이터 특성 파악

- 모델링(분류/회귀/군집) 및 모델 평가 및 검증

- 모델 적용 및 운영방안 수립

 

 

<4>  Developing(시스템 구현)

- 설계 및 구현

- 시스템 테스트 및 운영

 

 

<5> Deploying(평가 및 전개)

- 모델 발전 계획 수립

- 프로젝트 평가 및 보고

 

 

  

 

3) 도구와 기법

- 분석 수행 위한 수단

- R, Python, SQL 

- 회귀분석, DecisionTree 등

 

 

4) 템플릿과 산출물

- 분석결과를 정리 및 공유하기 위한 문서

- 분석 보고서, 데이터 정의서, 모델 결과 문서