[리모트] 데이터 분석 기획

2025. 6. 11. 19:11·Activity/리모트 인턴십 6기
728x90

1. 빅데이터 분석 개요

빅데이터 분석에서 중요한 것은 크기와 종류가 아닌 인사이트의 발견을 통한 문제 해결

 

3V: Velocity(빠른 속도), Volume(양), Variety(다양성)

2. 분석 기획을 위한 프로젝트 방법론

데이터 분석 기획은 실제 분석의 수행전에 이루어져야 한다.

분석 기획 시 고려사항: 가용한 데이터 확인, Use Case의 확인, 분석 역량, 기대 효과를 고려

데이터를 분석 할 때는 KDD / CRISP-DM / SEMMA 등과 같은 분석 기법을 활용한다.

 

분석 기획은 주기적인 갱신도 고려해야 한다.

특히 좋은 성능으로 목적을 달성하는 것도 좋지만, 비즈니스 목적을 달성됐는지 평가하는 것이 중요하다.

 

[주의사항]

  1. 분석 과제에 가용할 데이터가 존재하는지 확인할 것
  2. 기존 Use Case를 연구하여 인사이트 얻을 것
  3. 실질적인 분석 절차에 대한 계획을 구체적으로 수립할 것
  4. 분석 역량의 고려

3. 분석 목적 구체화 및 조직 정비

분석의 목적: 데이터로부터 Inference 하거나, Prediction 하는 것

  1. 관심있는 대상이나 현상에 대한 기록을 이해(Inference)
  2. 기록에 대한 이해를 바탕으로 미래를 예측(Prediction)

[분석 목적 구체화하기]

  1. ~분야의 ~에 대한 데이터를 분석해, 기존 프로세스의 문제점을 발견하고 향후 개선점을 제시해 ~분야의 수익 증대하고자 함
  2. ~분야의 ~에 대한 데이터를 분석해 중요한 변수들을 스크리닝하고 검토하여 모델링에 활용하고자 함. 그 결과로 높은 정확도의 모형을 수립하고자 함

[분석을 위한 Teaming (Cross Functional Team)]

  1. 도메인 경험 및 현장의 이슈
  2. 데이터 엔지니어링 및 매니지먼트
  3. 알고리즘에 대한 이해와 분석 역량
  4. 시스템 및 아키텍처
  5. 비즈니스 컨설팅

4. 분석 데이터 확인

데이터의 종류: 정형/반정형/비정형 데이터

➡️ 다양한 데이터는 정형 데이터화 하여 분석한다. 즉, 데이터 분석의 시작은 데이터를 정형 데이터로 만드는 것

 

[확인사항]

  • 사용 가능한 데이터인지 확인
  • 개인정보 보호법, 정보통신망법, 신용정보법 (개 망 신 법)
  • GDPR: 유럽 연합 일반 데이터 보호 규칙

[정형화시 고려사항]

  1. 같은 분석 대상은 같은 줄(행)에 표현하기
  2. 같은 종류의 값들은 같은 열에 표시하기, 열의 이름은 변수라고 부르기
  3. 변수 명칭은 일관성 있게 만들기
  4. 범주는 그대로 표시하되 분석 시에는 숫자로 변환하여 처리하기(One hot encoding)
  5. 텍스트는 나누고 정리하여 컬럼처럼 사용하기

5. 빅데이터 큐레이션

데이터 큐레이션(Data Curation): 데이터의 가치를 제고해주는 데이터와 관련된 모든 활동

데이터를 수집하고 처리하여 정제하며, 분석 알고리즘의 적용을 위한 활용
그리고 모형의 성능을 평가하기 위한 활용 등 데이터의 가치를 제고해주는 데이터 관련 활동
비즈니스와 데이터, 알고리즘과 시스템, 분석가와 비즈니스 전문가를 연결
  • 분석 목적에 사용할 내부 데이터를 위한 RDBMS 접근
  • 외부 데이터를 위한 API와 웹 수집
  • 수집된 데이터를 정형화

Data Curation의 또 다른 예로 Data Annotation이 있는데, 이는 다량의 이미지를 바탕으로 사물 인식 모델링을 위해 각 이미지에 라벨링을 하는 것을 말한다. (개 이미지에는 '개', 고양이 이미지에는 '고양이'로 이름을 붙여 라벨링)

 

[데이터별 시나리오 예시]

개/고양이 이미지 ➡️ 동물 분류 딥러닝 ➡️ 홈 CCTV 비즈니스에 응용

 

[하향식 vs 상향식]

하향식: 분석과제 ➡️ 데이터

상향식: 데이터 ➡️ 분석과제

시행착오를 겪으며 최적의 방법을 찾아가야 한다.

6. 분석 프로세스 단계별 이해 1

Data Preprocessing(데이터 전처리): 분석에 필요한 데이터를 핸들링 가능하도록 처리하는 과정을 의미

Exploratory Data Analysis(EDA): 데이터를 요약하거나 시각화하여 분석에 필요한 인사이트 발견

Data Manipulation(데이터 조작): 데이터에서 필요한 변수를 선정하거나 변수를 가공하여 분석에 활용할 수 있도록 함

 

[데이터 분석의 단계]

  1. 데이터 전처리(Data Preprocessing)
  2. 탐색적 자료 분석(Exploratory Data Analysis)
  3. 데이터 조작(Data Manipulation)
  4. 모델링(Modeling)
  5. 분석(Analysis)
  6. 모형평가(Evaluation)

[데이터 전처리]

  • 빈 값에 대한 처리: 해당 행 삭제, 치환 등
  • 이상한 값: 해당 행 삭제, 치환 등
  • 범위 외의 값: 해당 데이터 생성 환경 검토

[탐색적 자료 분석(EDA) ➡️ 데이터에서 변수 발견]

  • 변수 단위의 요약 값 확인(평균, 최대, 최소, 표준편차 등)
  • 변수 단위의 그래프 그리기
  • 두 변수에 대한 요약 값 확인
  • 두 변수에 대한 그래프 그리기
그래프가 데이터 분석의 최선이라는 의견도 있음

 

[데이터 조작 ➡️ 변수를 선택]

Y변수 = Output = 종속변수(Dependent) = 타겟변수(Target)
X변수 = Input = 독립변수(Independent) = 설명변수(Exploratory)
  • 모델링 전 가장 중요한 단계
  • 기획된 분석 목적의 이해가 중요 (지도vs비지도)
  • 지도학습을 선택시 Y와 X의 선택이 중요하다

7. 분석 프로세스 단계별 이해 2

[데이터 분석의 단계]

  1. 데이터 전처리(Data Preprocessing)
  2. 탐색적 자료 분석(Exploratory Data Analysis)
  3. 데이터 조작(Data Manipulation)
  4. 모델링(Modeling)
  5. 분석(Analysis)
  6. 모형평가(Evaluation)

모형/모델: 데이터를 바라보는 우리의 관점

  • 분석 목적에 맞는 적절한 모형 선택이 중요
  • 추론과 예측 중 하나에 특화된 모형들과 선택된 변수를 고려해야함

데이터: 현상을 값으로 기록한 것

 

[모형 선택의 예]

분석 상황: 메시지 내용으로 스팸 메일 발견
  • Y변수: 스팸메일 vs 정상메일
  • X변수: 메시지 내용 (스팸 메일을 잘 예측하는 것이 중요)
  • 가용할 모형들: SVM, DNN, NB 등의 모형
분석 상황: 금리에 따른 기업 부도 여부
  • Y변수: 기업 부도 여부
  • X변수: 금리 (금리에 따른 부도 발생을 설명하는 것이 중요)
  • 가용할 모형들: Logistic Regression!

[평가를 위한 대표적인 지표]

  • Accuracy(정확성)
  • Mean Sqared Error(오차)

8. 기술, 분석 도구 검토 및 도입

데이터 분석 도구의 선택시 고려사항: 고성능, 저비용, 확장성, 커뮤니티

 

[분석을 위한 ICT]

  • DBMS 활용을 위한 SQL
  • 웹 문서 활용을 위한 이해(HTML, 웹 수집)
  • 대량의 데이터 처리를 위한 병렬처리
  • 시스템 연계를 위한 API, JSON, XML 등의 활용

9. 분석 모형 평가를 위한 가이드라인

분석 모형 평가를 위한 데이터 파티셔닝
: 주어진 데이터를 Train 데이터와 Test 데이터로 나눠, 모델링 결과에 Test 데이터를 적용해 성능을 가늠

Train 데이터로 모델을 학습시키고, Test 데이터를 미래 상황이라 가정 후 적용시켜 모형을 평가한다.

 

지도학습vs비지도학습

: 지도학습은 성능이 수치화되어 파악되지만, 비지도학습은 분석 환경, 분석 목적 등을 고려해서 평가될 수 있음

지도학습 비지도학습
- Target이 있는 분석
- 구체적인 평가 기준
- 수치화된 성능-정분류율, RMSE 등

"얼마나 잘 맞추는 가?"
- Target이 없는 분석
- 구체적인 평가 기준 없음
- 상대적이고 주관적인 평가

"얼마나 분석 목적과 기획 의도에 부합하는 결과인가?"
ex) 주가 등락 여부에 대한 분류 모형의 성능 97% ex) 군집 분석 결과, 15000명의 고객에서 찾은 군집은 32개

 

모형/모델이 바라보는 데이터는 과거에 기록된 데이터(과거의 것)

➡️ 그럼 미래는 어떻게 평가해야할까?

 

[모형 평가 시 주의사항]

  1. 분석의 목적을 고려해야 함
  2. 성능이 너무 좋아도, 성능이 너무 나빠도 주의
  3. Test 데이터를 통해 추정된 모형의 성능을 맹신하지 말 것(성능이 너무 좋은 경우 오버피팅의 문제가 있을 수 있다)
  4. 분석가와 분석팀에 의한 정성적인 해석 필요

 

 

728x90

'Activity > 리모트 인턴십 6기' 카테고리의 다른 글

[리모트] 엑셀 하나로 충분한 데이터 분석 기본  (2) 2025.07.16
[리모트] 기획이 쉬워지는 진짜 기획  (2) 2025.06.06
'Activity/리모트 인턴십 6기' 카테고리의 다른 글
  • [리모트] 엑셀 하나로 충분한 데이터 분석 기본
  • [리모트] 기획이 쉬워지는 진짜 기획
DROPDEW
DROPDEW
💻 Developer | 기록하지 않으면 존재하지 않는다
  • DROPDEW
    제 2장 1막
    DROPDEW
  • 전체
    오늘
    어제
    • Dev (443)
      • App·Android (1)
      • BE (50)
        • HTTP 웹 기본 지식 (8)
        • 스프링 입문 - 코드로 배우는 스프링 부트, 웹 .. (12)
        • 스프링부트와 JPA 활용 (11)
        • 스프링부트 시큐리티 & JWT (0)
        • 실전 자바 기본, 중급 (1)
        • PHP (11)
      • FE·Client (23)
        • HTML (1)
        • React (19)
        • Unity (1)
      • Data (28)
        • AI (7)
        • Bigdata (6)
        • Database (1)
        • Python (0)
        • 빅데이터분석기사 (13)
      • Infra (1)
      • Activity (9)
        • Intern (0)
        • SK AI Dream Camp (2)
        • 구름톤 유니브 4기 (1)
        • 리모트 인턴십 6기 (3)
        • 봉사활동 (0)
        • 부스트캠프 AI Tech 8기 (3)
      • CS (8)
      • 취준 (12)
        • 자격증 (4)
        • 인적성·NCS (6)
        • 코테·필기·면접 후기 (2)
      • 코테 (270)
        • Algorithm (222)
        • SQL (35)
        • 정리 (13)
      • 인사이트 (27)
        • 금융경제뉴스 (7)
        • 금융용어·지식 (2)
        • 북마크 (7)
  • 블로그 메뉴

    • 홈
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    오블완
    시뮬레이션
    그리디알고리즘
    매개변수탐색
    문자열
    자료구조
    백준
    브루트포스 알고리즘
    다이나믹프로그래밍
    누적합
    너비우선탐색
    투포인터
    티스토리챌린지
    정렬
    최단경로
    이분탐색
    그래프탐색
    구현
    그래프이론
    수학
  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
DROPDEW
[리모트] 데이터 분석 기획
상단으로

티스토리툴바