1. 빅데이터 분석 개요
빅데이터 분석에서 중요한 것은 크기와 종류가 아닌 인사이트의 발견을 통한 문제 해결
3V: Velocity(빠른 속도), Volume(양), Variety(다양성)
2. 분석 기획을 위한 프로젝트 방법론
데이터 분석 기획은 실제 분석의 수행전에 이루어져야 한다.
분석 기획 시 고려사항: 가용한 데이터 확인, Use Case의 확인, 분석 역량, 기대 효과를 고려
데이터를 분석 할 때는 KDD / CRISP-DM / SEMMA 등과 같은 분석 기법을 활용한다.
분석 기획은 주기적인 갱신도 고려해야 한다.
특히 좋은 성능으로 목적을 달성하는 것도 좋지만, 비즈니스 목적을 달성됐는지 평가하는 것이 중요하다.
[주의사항]
- 분석 과제에 가용할 데이터가 존재하는지 확인할 것
- 기존 Use Case를 연구하여 인사이트 얻을 것
- 실질적인 분석 절차에 대한 계획을 구체적으로 수립할 것
- 분석 역량의 고려
3. 분석 목적 구체화 및 조직 정비
분석의 목적: 데이터로부터 Inference 하거나, Prediction 하는 것
- 관심있는 대상이나 현상에 대한 기록을 이해(Inference)
- 기록에 대한 이해를 바탕으로 미래를 예측(Prediction)
[분석 목적 구체화하기]
- ~분야의 ~에 대한 데이터를 분석해, 기존 프로세스의 문제점을 발견하고 향후 개선점을 제시해 ~분야의 수익 증대하고자 함
- ~분야의 ~에 대한 데이터를 분석해 중요한 변수들을 스크리닝하고 검토하여 모델링에 활용하고자 함. 그 결과로 높은 정확도의 모형을 수립하고자 함
[분석을 위한 Teaming (Cross Functional Team)]
- 도메인 경험 및 현장의 이슈
- 데이터 엔지니어링 및 매니지먼트
- 알고리즘에 대한 이해와 분석 역량
- 시스템 및 아키텍처
- 비즈니스 컨설팅
4. 분석 데이터 확인
데이터의 종류: 정형/반정형/비정형 데이터
➡️ 다양한 데이터는 정형 데이터화 하여 분석한다. 즉, 데이터 분석의 시작은 데이터를 정형 데이터로 만드는 것
[확인사항]
- 사용 가능한 데이터인지 확인
- 개인정보 보호법, 정보통신망법, 신용정보법 (개 망 신 법)
- GDPR: 유럽 연합 일반 데이터 보호 규칙
[정형화시 고려사항]
- 같은 분석 대상은 같은 줄(행)에 표현하기
- 같은 종류의 값들은 같은 열에 표시하기, 열의 이름은 변수라고 부르기
- 변수 명칭은 일관성 있게 만들기
- 범주는 그대로 표시하되 분석 시에는 숫자로 변환하여 처리하기(One hot encoding)
- 텍스트는 나누고 정리하여 컬럼처럼 사용하기
5. 빅데이터 큐레이션
데이터 큐레이션(Data Curation): 데이터의 가치를 제고해주는 데이터와 관련된 모든 활동
데이터를 수집하고 처리하여 정제하며, 분석 알고리즘의 적용을 위한 활용
그리고 모형의 성능을 평가하기 위한 활용 등 데이터의 가치를 제고해주는 데이터 관련 활동
비즈니스와 데이터, 알고리즘과 시스템, 분석가와 비즈니스 전문가를 연결
- 분석 목적에 사용할 내부 데이터를 위한 RDBMS 접근
- 외부 데이터를 위한 API와 웹 수집
- 수집된 데이터를 정형화
Data Curation의 또 다른 예로 Data Annotation이 있는데, 이는 다량의 이미지를 바탕으로 사물 인식 모델링을 위해 각 이미지에 라벨링을 하는 것을 말한다. (개 이미지에는 '개', 고양이 이미지에는 '고양이'로 이름을 붙여 라벨링)
[데이터별 시나리오 예시]
개/고양이 이미지 ➡️ 동물 분류 딥러닝 ➡️ 홈 CCTV 비즈니스에 응용
[하향식 vs 상향식]
하향식: 분석과제 ➡️ 데이터
상향식: 데이터 ➡️ 분석과제
시행착오를 겪으며 최적의 방법을 찾아가야 한다.
6. 분석 프로세스 단계별 이해 1
Data Preprocessing(데이터 전처리): 분석에 필요한 데이터를 핸들링 가능하도록 처리하는 과정을 의미
Exploratory Data Analysis(EDA): 데이터를 요약하거나 시각화하여 분석에 필요한 인사이트 발견
Data Manipulation(데이터 조작): 데이터에서 필요한 변수를 선정하거나 변수를 가공하여 분석에 활용할 수 있도록 함
[데이터 분석의 단계]
- 데이터 전처리(Data Preprocessing)
- 탐색적 자료 분석(Exploratory Data Analysis)
- 데이터 조작(Data Manipulation)
- 모델링(Modeling)
- 분석(Analysis)
- 모형평가(Evaluation)
[데이터 전처리]
- 빈 값에 대한 처리: 해당 행 삭제, 치환 등
- 이상한 값: 해당 행 삭제, 치환 등
- 범위 외의 값: 해당 데이터 생성 환경 검토
[탐색적 자료 분석(EDA) ➡️ 데이터에서 변수 발견]
- 변수 단위의 요약 값 확인(평균, 최대, 최소, 표준편차 등)
- 변수 단위의 그래프 그리기
- 두 변수에 대한 요약 값 확인
- 두 변수에 대한 그래프 그리기
그래프가 데이터 분석의 최선이라는 의견도 있음
[데이터 조작 ➡️ 변수를 선택]
Y변수 = Output = 종속변수(Dependent) = 타겟변수(Target)
X변수 = Input = 독립변수(Independent) = 설명변수(Exploratory)
- 모델링 전 가장 중요한 단계
- 기획된 분석 목적의 이해가 중요 (지도vs비지도)
- 지도학습을 선택시 Y와 X의 선택이 중요하다
7. 분석 프로세스 단계별 이해 2
[데이터 분석의 단계]
- 데이터 전처리(Data Preprocessing)
- 탐색적 자료 분석(Exploratory Data Analysis)
- 데이터 조작(Data Manipulation)
- 모델링(Modeling)
- 분석(Analysis)
- 모형평가(Evaluation)
모형/모델: 데이터를 바라보는 우리의 관점
- 분석 목적에 맞는 적절한 모형 선택이 중요
- 추론과 예측 중 하나에 특화된 모형들과 선택된 변수를 고려해야함
데이터: 현상을 값으로 기록한 것
[모형 선택의 예]
분석 상황: 메시지 내용으로 스팸 메일 발견
- Y변수: 스팸메일 vs 정상메일
- X변수: 메시지 내용 (스팸 메일을 잘 예측하는 것이 중요)
- 가용할 모형들: SVM, DNN, NB 등의 모형
분석 상황: 금리에 따른 기업 부도 여부
- Y변수: 기업 부도 여부
- X변수: 금리 (금리에 따른 부도 발생을 설명하는 것이 중요)
- 가용할 모형들: Logistic Regression!
[평가를 위한 대표적인 지표]
- Accuracy(정확성)
- Mean Sqared Error(오차)
8. 기술, 분석 도구 검토 및 도입
데이터 분석 도구의 선택시 고려사항: 고성능, 저비용, 확장성, 커뮤니티
[분석을 위한 ICT]
- DBMS 활용을 위한 SQL
- 웹 문서 활용을 위한 이해(HTML, 웹 수집)
- 대량의 데이터 처리를 위한 병렬처리
- 시스템 연계를 위한 API, JSON, XML 등의 활용
9. 분석 모형 평가를 위한 가이드라인
분석 모형 평가를 위한 데이터 파티셔닝
: 주어진 데이터를 Train 데이터와 Test 데이터로 나눠, 모델링 결과에 Test 데이터를 적용해 성능을 가늠
Train 데이터로 모델을 학습시키고, Test 데이터를 미래 상황이라 가정 후 적용시켜 모형을 평가한다.
지도학습vs비지도학습
: 지도학습은 성능이 수치화되어 파악되지만, 비지도학습은 분석 환경, 분석 목적 등을 고려해서 평가될 수 있음
| 지도학습 | 비지도학습 |
| - Target이 있는 분석 - 구체적인 평가 기준 - 수치화된 성능-정분류율, RMSE 등 "얼마나 잘 맞추는 가?" |
- Target이 없는 분석 - 구체적인 평가 기준 없음 - 상대적이고 주관적인 평가 "얼마나 분석 목적과 기획 의도에 부합하는 결과인가?" |
| ex) 주가 등락 여부에 대한 분류 모형의 성능 97% | ex) 군집 분석 결과, 15000명의 고객에서 찾은 군집은 32개 |
모형/모델이 바라보는 데이터는 과거에 기록된 데이터(과거의 것)
➡️ 그럼 미래는 어떻게 평가해야할까?
[모형 평가 시 주의사항]
- 분석의 목적을 고려해야 함
- 성능이 너무 좋아도, 성능이 너무 나빠도 주의
- Test 데이터를 통해 추정된 모형의 성능을 맹신하지 말 것(성능이 너무 좋은 경우 오버피팅의 문제가 있을 수 있다)
- 분석가와 분석팀에 의한 정성적인 해석 필요
'Activity > 리모트 인턴십 6기' 카테고리의 다른 글
| [리모트] 엑셀 하나로 충분한 데이터 분석 기본 (2) | 2025.07.16 |
|---|---|
| [리모트] 기획이 쉬워지는 진짜 기획 (2) | 2025.06.06 |