오늘 포스팅은 ADsP 1과목 마지막 단원인 빅데이터 관련해서 내용을 정리해 보겠습니다.

1. 빅데이터 등장 배경
- 클라우드 컴퓨팅 : On-demand, 저장 및 처리 비용 감소
- 분산 처리 기술 : 하둡 기반 대용량 데이터 처리 가능
- 비정형 데이터 확산 : SNS, 로그, 이미지, 영상
- 인터넷과 각종 모바일 기기 보급으로 인한 실시간 데이터 폭증
- IoT 발달 및 디지털화 가속 : 모든 활동이 데이터로 기록됨.
2. 빅데이터 등장 전후 비교
- 전수조사 : 데이터가 너무 많아져서 일부 표본만 조사하는 것이 아니라 전부 분석이 가능해짐
- 사후처리 : 미리 다 정제 X, 일단 모으고 나중에 분석
- 양 중심 : 정확성보다 규모에서 의미를 발견
- 상관관계 : '왜?' 보다 '함께 움직이나?' 가 더 중요
=> 특정 데이터를 누가, 언제, 어디서 활용할지 알 수 없음. 하지만 기존에 가치 없는 데이터라도 새로운 분석 기법으로 가치를 창조할 수 있기 때문에 빅데이터의 가치 산정이 어려움.

3. 빅데이터 정의 3V
=> 가트너가 정의한 핵심 3V
=> 주의 : 3V에는 Value 없음!! (시험에 함정으로 자주 나온다고 함)
1) Volume(규모) : 데이터 양의 폭증
2) Variety(다양성) : 정형, 비정형, 반정형 등 유형 증가
3) Velocity(속도) : 데이터 생성, 수집, 처리 속도가 증가
* 5V: Value(가치) / Veracity(신뢰성)
* 7V: Validity(정확성, 유효성) / Volatility(휘발성)

4. 빅데이터에 대한 비유
1) 석탄, 철
- 산업혁명의 핵심 자원
- 빅데이터도 산업 전반의 기반 자원
2) 원유
- 가공 전에는 가치가 낮음
- 분석, 정제 후에는 가치를 창출함
- 정보 제공으로 생산성이 향상됨
=> 빅데이터는 정제 과정을 통해 가치가 높아짐
3) 렌즈
- 현미경이 생물학 발전에 영향을 줌.
- 빅데이터 또한 산업, 학문의 전반에 혁신을 일으킴
- 렌즈는 빅데이터의 관찰 도구 역할 (구글 Ngram Viewer)
4) 플랫폼
- 공동 활용 목적의 인프라
- 써드파티(원천 기술을 활용한 파생상품 만드는 회사) 비즈니스 활성화
=> 빅데이터 플랫폼은 제 3자의 서비스 창출을 가능하게 함

5. 데이터 단위
- KB(2^10) < MB(2^20) < GB(2^30) < TB(2^40) < PB(2^50) < EB(2^60) < ZB(2^70) < YB(2^80)
- EB : 엑사바이트
- ZB : 제타바이트
- YB : 요타바이트
6. 비즈니스 모델 종류
1) 회귀모델 : 독립변수와 종속변수 간 관계 (X -> Y) 를 통해 특정 결괏값을 예측
2) 분류모델 : 데이터가 어떤 그룹에 속하는지 여부(1 or 0) 예측
ex. 이진분류, 다중분류
https://soojin2509.tistory.com/32
[KT AIVLE SCHOOL] 1차 미니 프로젝트 회고
안녕하세요!드디어 에이블스쿨 1차 미니 프로젝트가 끝이 났습니다.5일간의 짧은 여정이었지만, 이번 프로젝트를 하면서 제 실력이 정말 많이 향상되었음을 느꼈는데요!그래서 진행했던 프로젝
soojin2509.tistory.com
3) 기계학습 : Train Data로부터 컴퓨터가 학습하고 실제 Test Data를 가지고 미래를 예측
https://soojin2509.tistory.com/39
딥러닝(DL) 개념 및 구조 & 코드 정리
안녕하세요~!오늘 포스팅은 딥러닝에 대해 간략히 정리해 보겠습니다.최적의 모델이란, 오차가 가장 적은 모델을 의미하는데요.최적의 파라미터인 최적의 가중치(Weight)를 찾는 과정을 '딥러닝
soojin2509.tistory.com
4) 감정분석 : 텍스트 데이터로부터 감정 즉, 긍정 / 부정을 분석함
ex. KT 에이블스쿨 미니프로젝트 - 리뷰데이터 긍/부정 감정분석 프로젝트 참고
https://soojin2509.tistory.com/41
[KT AIVLE SCHOOL] 2차 미니 프로젝트 회고(1~2일차)
안녕하세요~!드디어 에이블스쿨 2차 미니 프로젝트도 끝이 났습니다.이번 프로젝트는 속성 기반 감성 분석(1~2일 차) 및 면접관 Agent(3~5일 차)를 직접 구축해 보았는데요!개발하다 보니 재미도 있
soojin2509.tistory.com
5) 유전자 알고리즘 : 최적화가 필요한 문제에 대한 해결책을 제시
6) 텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통해 숨겨진 의미를 찾아냄.
ex. LLM + Langgraph 기반 문서 요약이나 키워드추출
https://soojin2509.tistory.com/37
Langchain 개념 및 활용(프롬프트 활용 LLM 응답 받아오기)
안녕하세요~!이번 포스팅은 Langchain에 대해 포스팅해보려고 합니다.Langchain의 개념과 프롬프트를 활용하여 LLM 응답을 받아와 구조화하고 활용하는 방법까지 살펴보겠습니다. 1. LangChain 이란?- Lang
soojin2509.tistory.com
'AI 관련 자격증' 카테고리의 다른 글
| ADsP 자격증 요약 정리(5) - 2과목 데이터 분석 과제 (1) | 2026.02.04 |
|---|---|
| ADsP 자격증 요약 정리(4) - 2과목 데이터 분석 기획 (0) | 2026.02.04 |
| ADsP 자격증 요약 정리(2) - 1과목 데이터베이스 (0) | 2026.01.27 |
| ADsP 자격증 요약 정리(1) - 1과목 데이터 이해 (0) | 2026.01.25 |
| AICE Associate 자격증 시험 총 정리 및 주의사항 & 꿀팁 (0) | 2025.10.23 |