[빅데이터분석기사] 데이터전처리 100제

2025. 6. 30. 09:34·Data/빅데이터분석기사
728x90

6번째 컬럼의 데이터 타입을 확인하라 dtype

df.iloc[:,5].dtype

 

6번째 컬럼의 3번째 값은 무엇인가? iloc[행, 컬럼]

df.iloc[2, 5]

 

데이터를 로드하라. 컬럼이 한글이기에 적절한 처리해줘야함 encoding="euc-kr"

DataUrl = "https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv"
df = pd.read_csv(DataUrl, encoding="euc-kr")
df

 

수치형 변수를 가진 컬럼을 출력하라 select_dtypes(exclud="object")

df.select_dtypes(exclude="object").columns

 

각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라 describe()

df.describe()

 

평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라 quantile(0.75) quantile(0.25)

ans = df['평균 속도'].quantile(0.75) - df['평균 속도'].quantile(0.25)
print(ans)

 

quantity컬럼 값이 3인 데이터를 추출하여 index를 0부터 정렬하고 첫 5행을 출력하라 reset_index(drop=True)

cond = df['quantity'] == 3
df[cond].reset_index(drop=True).head(5)

 

quantity , item_price 두개의 컬럼으로 구성된 새로운 데이터 프레임을 정의하라 df[['컬럼1', '컬럼2', '컬럼3', ...]]

new_df = df[['quantity', 'item_price']]
new_df

 

item_price 컬럼의 달러표시 문자를 제거하고 float 타입으로 저장하여 new_price 컬럼에 저장하라

str.replace('$','') astype(타입)

df['new_price'] = df['item_price'].str.replace('$','').astype('float')
df['new_price']

 

df의 new_price 컬럼 값에 따라 오름차순으로 정리하고 index를 초기화 하여라 sort_values(컬럼명)

df.sort_values('new_price').reset_index(drop=True)

 

df의 item_name 컬럼 값중 Chips 포함하는 경우의 데이터를 출력하라 str.contains('문자')

cond = df['item_name'].str.contains('Chips')
df[cond]

 

df의 new_price 컬럼 값에 따라 내림차순으로 정리하고 index를 초기화 하여라 sort_values('컬럼명', ascending=False)

df.sort_values('new_price', ascending=False).reset_index(drop=True)

 

df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 첫번째 케이스만 남겨라 drop_duplicates('컬럼명')

cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]

new_df.drop_duplicates('item_name')

 

df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 마지막 케이스만 남겨라 drop_duplicates('컬럼명', keep='last')

cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]

new_df.drop_duplicates('item_name',keep='last')

 

df의 데이터 중 item_name의 값이 Izze 데이터를 Fizzy Lizzy로 수정하라

df.loc[조건, 컬럼명] = 바꿀값

cond = df['item_name'] == 'Izze'
df.loc[cond, 'item_name'] = 'Fizzy Lizzy'
df

 

 df의 데이터 중 item_name 값의 단어갯수가 15개 이상인 데이터를 인덱싱하라 str.len() >= 15

cond = df['item_name'].str.len() >= 15
df[cond].head(5)

 

 

728x90

'Data > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사] 작업형2 머신러닝 - 머신러닝 학습 및 평가(분류/회귀)  (0) 2025.06.16
[빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(인코딩, 스케일링), 검증 데이터 분할  (0) 2025.06.15
[빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(결측치, 이상치)  (0) 2025.06.15
[빅데이터분석기사] 작업형1 모의문제3+4  (0) 2025.06.13
[빅데이터분석기사] 작업형1 모의문제1+2  (0) 2025.06.13
'Data/빅데이터분석기사' 카테고리의 다른 글
  • [빅데이터분석기사] 작업형2 머신러닝 - 머신러닝 학습 및 평가(분류/회귀)
  • [빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(인코딩, 스케일링), 검증 데이터 분할
  • [빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(결측치, 이상치)
  • [빅데이터분석기사] 작업형1 모의문제3+4
DROPDEW
DROPDEW
💻 Developer | 기록하지 않으면 존재하지 않는다
  • DROPDEW
    제 2장 1막
    DROPDEW
  • 전체
    오늘
    어제
    • Dev (444)
      • App·Android (1)
      • BE (50)
        • HTTP 웹 기본 지식 (8)
        • 스프링 입문 - 코드로 배우는 스프링 부트, 웹 .. (12)
        • 스프링부트와 JPA 활용 (11)
        • 스프링부트 시큐리티 & JWT (0)
        • 실전 자바 기본, 중급 (1)
        • PHP (11)
      • FE·Client (23)
        • HTML (1)
        • React (19)
        • Unity (1)
      • Data (28)
        • AI (7)
        • Bigdata (6)
        • Database (1)
        • Python (0)
        • 빅데이터분석기사 (13)
      • Infra (1)
      • Activity (9)
        • Intern (0)
        • SK AI Dream Camp (2)
        • 구름톤 유니브 4기 (1)
        • 리모트 인턴십 6기 (3)
        • 봉사활동 (0)
        • 부스트캠프 AI Tech 8기 (3)
      • CS (8)
      • 취준 (13)
        • 자격증 (4)
        • 인적성·NCS (6)
        • 코테·필기·면접 후기 (3)
      • 코테 (270)
        • Algorithm (222)
        • SQL (35)
        • 정리 (13)
      • 인사이트 (27)
        • 금융경제뉴스 (7)
        • 금융용어·지식 (2)
        • 북마크 (7)
  • 블로그 메뉴

    • 홈
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    문자열
    다이나믹프로그래밍
    누적합
    브루트포스 알고리즘
    정렬
    그래프탐색
    이분탐색
    수학
    매개변수탐색
    티스토리챌린지
    백준
    너비우선탐색
    오블완
    최단경로
    그리디알고리즘
    구현
    시뮬레이션
    투포인터
    자료구조
    그래프이론
  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
DROPDEW
[빅데이터분석기사] 데이터전처리 100제
상단으로

티스토리툴바