[빅데이터분석기사] 데이터전처리 100제

728x90

6번째 컬럼의 데이터 타입을 확인하라 dtype

df.iloc[:,5].dtype

6번째 컬럼의 3번째 값은 무엇인가? iloc[행, 컬럼]

df.iloc[2, 5]

데이터를 로드하라. 컬럼이 한글이기에 적절한 처리해줘야함 encoding="euc-kr"

DataUrl = "https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv"
df = pd.read_csv(DataUrl, encoding="euc-kr")
df

수치형 변수를 가진 컬럼을 출력하라 select_dtypes(exclud="object")

df.select_dtypes(exclude="object").columns

각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라 describe()

df.describe()

평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라 quantile(0.75) quantile(0.25)

ans = df['평균 속도'].quantile(0.75) - df['평균 속도'].quantile(0.25)
print(ans)

quantity컬럼 값이 3인 데이터를 추출하여 index를 0부터 정렬하고 첫 5행을 출력하라 reset_index(drop=True)

cond = df['quantity'] == 3
df[cond].reset_index(drop=True).head(5)

quantity , item_price 두개의 컬럼으로 구성된 새로운 데이터 프레임을 정의하라 df[['컬럼1', '컬럼2', '컬럼3', ...]]

new_df = df[['quantity', 'item_price']]
new_df

item_price 컬럼의 달러표시 문자를 제거하고 float 타입으로 저장하여 new_price 컬럼에 저장하라

str.replace('$','') astype(타입)

df['new_price'] = df['item_price'].str.replace('$','').astype('float')
df['new_price']

df의 new_price 컬럼 값에 따라 오름차순으로 정리하고 index를 초기화 하여라 sort_values(컬럼명)

df.sort_values('new_price').reset_index(drop=True)

df의 item_name 컬럼 값중 Chips 포함하는 경우의 데이터를 출력하라 str.contains('문자')

cond = df['item_name'].str.contains('Chips')
df[cond]

df의 new_price 컬럼 값에 따라 내림차순으로 정리하고 index를 초기화 하여라 sort_values('컬럼명', ascending=False)

df.sort_values('new_price', ascending=False).reset_index(drop=True)

df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 첫번째 케이스만 남겨라 drop_duplicates('컬럼명')

cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]

new_df.drop_duplicates('item_name')

df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 마지막 케이스만 남겨라 drop_duplicates('컬럼명', keep='last')

cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]

new_df.drop_duplicates('item_name',keep='last')

df의 데이터 중 item_name의 값이 Izze 데이터를 Fizzy Lizzy로 수정하라

df.loc[조건, 컬럼명] = 바꿀값

cond = df['item_name'] == 'Izze'
df.loc[cond, 'item_name'] = 'Fizzy Lizzy'
df

df의 데이터 중 item_name 값의 단어갯수가 15개 이상인 데이터를 인덱싱하라 str.len() >= 15

cond = df['item_name'].str.len() >= 15
df[cond].head(5)

728x90

'Data > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사] 작업형2 머신러닝 - 머신러닝 학습 및 평가(분류/회귀) (0)	2025.06.16
[빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(인코딩, 스케일링), 검증 데이터 분할 (0)	2025.06.15
[빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(결측치, 이상치) (0)	2025.06.15
[빅데이터분석기사] 작업형1 모의문제3+4 (0)	2025.06.13
[빅데이터분석기사] 작업형1 모의문제1+2 (0)	2025.06.13

제 2장 1막

[빅데이터분석기사] 데이터전처리 100제

'Data > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바