6번째 컬럼의 데이터 타입을 확인하라 dtype
df.iloc[:,5].dtype
6번째 컬럼의 3번째 값은 무엇인가? iloc[행, 컬럼]
df.iloc[2, 5]
데이터를 로드하라. 컬럼이 한글이기에 적절한 처리해줘야함 encoding="euc-kr"
DataUrl = "https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv"
df = pd.read_csv(DataUrl, encoding="euc-kr")
df
수치형 변수를 가진 컬럼을 출력하라 select_dtypes(exclud="object")
df.select_dtypes(exclude="object").columns
각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라 describe()
df.describe()
평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라 quantile(0.75) quantile(0.25)
ans = df['평균 속도'].quantile(0.75) - df['평균 속도'].quantile(0.25)
print(ans)
quantity컬럼 값이 3인 데이터를 추출하여 index를 0부터 정렬하고 첫 5행을 출력하라 reset_index(drop=True)
cond = df['quantity'] == 3
df[cond].reset_index(drop=True).head(5)
quantity , item_price 두개의 컬럼으로 구성된 새로운 데이터 프레임을 정의하라 df[['컬럼1', '컬럼2', '컬럼3', ...]]
new_df = df[['quantity', 'item_price']]
new_df
item_price 컬럼의 달러표시 문자를 제거하고 float 타입으로 저장하여 new_price 컬럼에 저장하라
str.replace('$','') astype(타입)
df['new_price'] = df['item_price'].str.replace('$','').astype('float')
df['new_price']
df의 new_price 컬럼 값에 따라 오름차순으로 정리하고 index를 초기화 하여라 sort_values(컬럼명)
df.sort_values('new_price').reset_index(drop=True)
df의 item_name 컬럼 값중 Chips 포함하는 경우의 데이터를 출력하라 str.contains('문자')
cond = df['item_name'].str.contains('Chips')
df[cond]
df의 new_price 컬럼 값에 따라 내림차순으로 정리하고 index를 초기화 하여라 sort_values('컬럼명', ascending=False)
df.sort_values('new_price', ascending=False).reset_index(drop=True)
df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 첫번째 케이스만 남겨라 drop_duplicates('컬럼명')
cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]
new_df.drop_duplicates('item_name')
df의 item_name 컬럼 값이 Steak Salad 또는 Bowl 인 데이터를 데이터 프레임화 한 후, item_name를 기준으로 중복행이 있으면 제거하되 마지막 케이스만 남겨라 drop_duplicates('컬럼명', keep='last')
cond1 = df['item_name'] == 'Steak Salad'
cond2 = df['item_name'] == 'Bowl'
new_df = df[cond1 | cond2]
new_df.drop_duplicates('item_name',keep='last')
df의 데이터 중 item_name의 값이 Izze 데이터를 Fizzy Lizzy로 수정하라
df.loc[조건, 컬럼명] = 바꿀값
cond = df['item_name'] == 'Izze'
df.loc[cond, 'item_name'] = 'Fizzy Lizzy'
df
df의 데이터 중 item_name 값의 단어갯수가 15개 이상인 데이터를 인덱싱하라 str.len() >= 15
cond = df['item_name'].str.len() >= 15
df[cond].head(5)
'Data > 빅데이터분석기사' 카테고리의 다른 글
| [빅데이터분석기사] 작업형2 머신러닝 - 머신러닝 학습 및 평가(분류/회귀) (0) | 2025.06.16 |
|---|---|
| [빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(인코딩, 스케일링), 검증 데이터 분할 (0) | 2025.06.15 |
| [빅데이터분석기사] 작업형2 머신러닝 - 데이터 전처리(결측치, 이상치) (0) | 2025.06.15 |
| [빅데이터분석기사] 작업형1 모의문제3+4 (0) | 2025.06.13 |
| [빅데이터분석기사] 작업형1 모의문제1+2 (0) | 2025.06.13 |