📌 [개념정리] 데이터 전처리 / 시각화 개념 통합

스파르타 내일배움캠프(25.12.01~)

📌 [개념정리] 데이터 전처리 / 시각화 개념 통합

0️⃣ 2026. 1. 21. 16:06

수집 → 전처리(정제) → 탐색(EDA) -> 분석/모델링 → 리포트/시각화

데이터 전처리:

지저분한 원본 데이터를 분석 가능한 형태로 정제 → 유의미한 요약 테이블 생성

Chapter 1. 내용 통합 정리

1. 데이터 클리닝 (Cleaning)

컬럼명 정리:
컬럼명에 대소문자 섞여 있거나 공백이 포함 돼 있으면 불편 & 오류 발생 가능성
- .rename()
- 컬럼명 직접 할당

문자열 정리(.str 접근자를 활용):
⚠️ 진행 전, 데이터 타입을 str로 통일시켜야 함.
.astype(str)
- .str.strip(): 앞뒤 공백 제거
- .str.replace(): 불필요한 문자 제거 (정규식 활용 가능)
- .str.title(): 단어의 맨 앞 알파벳만 대문자로 통일
- .str.lower() / .str.upper(): 대소문자 통일
숫자 변환:
- pd.to_numeric(df['col'], errors='coerce')
  - 금액 등에 포함된 쉼표(,)나 단위(원)를 제거한 후, (문자열인 상태에서)
  - 변환 불가한 값은 NaN으로 처리하고 숫자로 바꿈.
결측치 및 중복 처리:
- dropna(): 결측치가 있는 행 제거 (데이터가 충분할 때)
  ⚠️ 데이터를 날리는 거니까 결국 분석 결과에 큰 영향을 줌. 웬만하면 fillna() 사용.
- fillna(): 결측치를 평균, 중앙값, 0 등으로 대체 (데이터 보존)
- drop_duplicates(keep='first'): 중복된 행 중 첫 번째만 남기고 제거

2. 인덱싱과 데이터 선택 (Indexing & Filtering)

: 데이터 프레임에서 원하는 부분을 추출하는 것.

.loc (Label 기반):
- 숫자든, 문자든, 날짜든 뭐든!
- 행/열의 이름으로 접근. 슬라이싱 시 끝값을 포함.
(ex. df.loc[0 : 2] 는 0, 1, 2행 모두 선택)
- 사용자가 따로 인덱스 지정하면, 그 인덱스로 접근 / 인덱스 지정 안 하면 pandas가 자동을 0번부터 인덱스 적용.
.iloc (Position 기반):
- 항상 0, 1, 2, 3...
- 위치(순서) 번호로 접근. 파이썬의 리스트처럼 슬라이싱 시 끝값을 포함하지 않음.
(ex. df.loc[0 : 2] 는 0, 1 행만 선택)
- 첫번째 줄은 항상 0부터 시작

# 예시 1: 기본 인덱스 (0, 1, 2...)
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie']
})

#   Name
# 0 Alice
# 1 Bob
# 2 Charlie

df.iloc[1]  # 1번째 위치 → Bob
df.loc[1]   # 인덱스가 1인 행 → Bob (같은 결과!)

# 예시 2: 사용자 정의 인덱스
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie']
}, index=['A', 'B', 'C'])  # 인덱스를 A, B, C로 설정

#   Name
# A Alice
# B Bob
# C Charlie

df.iloc[1]  # 1번째 위치 → Bob
df.loc['B'] # 인덱스가 'B'인 행 → Bob

df.loc[1]   # 에러! (인덱스에 1이 없음)

조건 필터링 (&, |, ~):
- 조건에 맞는 행만 추출.
- 여러 조건을 결합할 때는 &(and), |(or), ~(not) 연산자를 사용.
- 각 조건은 반드시 괄호()로 감싸야 함.

# ❌ 에러 발생!
df[df['Age'] >= 30 & df['City'] == 'Seoul']

# ✅ 올바른 방법
df[(df['Age'] >= 30) & (df['City'] == 'Seoul')]

3. 데이터 집계 및 변형 (Group by & Pivot)

: 로그 데이터를 요약 정보로 변환하는 핵심 엔진.

.groupby():
특정 컬럼(들)을 기준으로 데이터를 묶고, 그룹별 요약값(집계)을 계산.
df.groupby('store')['sales'].sum()
집계함수 5종
sum(합계), mean(평균), count(개수), nunique(고유값 개수), min/max(최소/최대)
agg() 활용: 여러 컬럼에 대해 서로 다른 집계 함수를 한 번에 적용할 때 사용합니다.
result = df.groupby('Name').agg({
'Score': ['mean', 'max'],
'Hours': ['sum', 'min']
피벗 (Pivot): 리포트 작성을 위해 긴 형태(Long format)의 데이터를 넓은 형태(Wide format)로 재배치합니다.
pivot() 또는 unstack()을 사용합니다.
pivot_result = df2.pivot(index='Date', columns='Product', values='Sales')

4. 고급 전처리 기법

날짜/시간 처리:
pd.to_datetime()으로 변환 후 .dt 접근자를 사용하여 연(year), 월(month), 요일(day_name) 등을 추출합니다.
dt.to_period('M')으로 월 단위 데이터를 쉽게 만들 수 있습니다.
데이터 결합:
- merge():
  공통 키(Key)를 기준으로 열(Column) 방향으로 결합합니다. (SQL의 JOIN과 유사, how='left' 등 사용)
- concat(): 행(Row) 또는 열 방향으로 데이터를 단순 연결/누적합니다.
- apply vs map:
  - map(): 딕셔너리를 이용한 간단한 1:1 값 치환에 최적화되어 있습니다.
  - apply(): 함수를 적용하여 행 단위의 복잡한 로직 처리에 사용됩니다.
    (속도가 느릴 수 있음)

Chapter 2. 데이터 전처리 단계별 함수 & 기능 정리

단계	목적	주요 함수/메서드	설명
1. 확인 및 점검	데이터 구조, 타입 파악	shape, info(), describe(), head()	행/열 개수, 결측치 유무, 데이터 타입, 기초 통계량 확인
2. 컬럼 선택	불필요한 데이터 제외	df[['col 1', 'col 2']]	분석에 필요한 핵심 컬럼(피쳐, Feature)만 추출하여 dataframe에 복사
3. 조건 필터링	분석 대상 추출	(i)loc[조건], isin(), str.startswith()	조건식(Boolean Indexing)을 사용해 특정 행만 추출
4. 정렬	데이터 순서 정리	sort_values(), sort_index()	값 기준 또는 인덱스 기준으로 오름차순/내림차순 정렬
5. 문자열 처리	텍스트 표준화	str.strip(), str.lower(), str.replace()	공백 제고, 대소문자 통일, 특수문자 제거 등
6. 숫자 변환	연산 가능한 타입 변환	pd.to_numeric(errors='coerce')	문자형 숫자를 실수/정수형으로 변환 (오류는 NaN 처리)
7. 날짜 처리	시계열 분석 준비	pd.to_datetime(), dt.year/month	문자열을 날짜형으로 변환 후 연/월/요일 등 파생 변수 생성
8. 결측치 처리	누락된 데이터 보정	dropna(), fillna()	결측 행을 삭제하거나, 0 또는 평균값 등으로 대체
9. 중복 제거	데이터 유일성 확보	duplicated(), drop_duplicates()	중복된 행 확인 및 제거 (keep 옵션으로 남길 행 선택)
10. 집계	요약 통계 생성	groupby(), agg(), reset_index()	그룹별 합계, 평균 등 요약 지표 생성 및 인덱스 초기화
11. 결합	정보 확장	merge(), concat()	다른 테이블의 정보를 키 기준으로 병합하거나 데이터 누적
12. 피벗	리포트 형태 변환	pivot(), unstack()	행/열/값을 재배치하여 요약표 생성
13. 파생 변수	추가 정보 생성	apply(), map(), np.where()	기존 데이터를 기반으로 새로운 분석용 컬럼 생성
14. 저장	결과 보존	to_csv(index=False)	전처리가 완료된 데이터를 파일로 저장. (인코딩 주의)

Chapter 3. 전처리 실전 플로우

Step 1: 데이터 로드 및 초기 점검

데이터를 불러온 후 구조와 결측치 현황을 빠르게 파악합니다.

import pandas as pd
import numpy as np

# 데이터 로드
df = pd.DataFrame(raw_data)

# 빠른 점검 3종 세트
print(df.shape)
print(df.info()) # 데이터 타입 및 결측치 확인
print(df.describe(include='all')) # 기초 통계량 확인

Step 2: 필요한 컬럼 선택 및 추출

분석에 불필요한 컬럼을 제거하여 메모리를 절약하고 가독성을 높입니다.

# 분석에 필요한 핵심 컬럼만 리스트로 정의
cols = ["date", "store", "menu", "price", "qty", "paid"]

# .copy()를 사용하여 원본 경고(SettingWithCopyWarning) 방지
df_selected = df[cols].copy()

Step 3: 조건 필터링

결제 완료된 건 등 분석 대상이 되는 행만 추출합니다.

# 결제 완료(paid=True) 건만 필터링
# 조건식은 괄호()로 감싸는 것이 안전함
cond_paid = (df_selected["paid"] == True)
df_valid = df_selected.loc[cond_paid]

Step 4: 문자열 정제 및 숫자변환

가격의 특수문자를 제거하고 숫자로 변환하며, 메뉴명의 공백 등을 정리합니다.

# 1. 메뉴명 정리: 앞뒤 공백 제거 및 Title Case 변환
df_valid["menu"] = df_valid["menu"].str.strip().str.title()

# 2. 가격 정리: '원', ',' 제거 후 숫자로 변환
# errors='coerce'는 변환 불가능한 값을 NaN으로 처리
df_valid["price"] = df_valid["price"].astype(str).str.replace(r"[,원]", ""
df_valid["price"] = pd.to_numeric(df_valid["price"], errors='coerce')

Step 5: 결측치 및 중복 처리

분석에 치명적인 결측치와 중복 데이터를 처리합니다.

# 결측치 처리: 가격(price)이 없는 데이터는 삭제 (분석 불가)
df_clean = df_valid.dropna(subset=["price"]).copy()

# 결측치 처리: 수량(qty) 결측은 기본값 1로 채움
df_clean["qty"] = df_clean["qty"].fillna(1)

# 중복 제거: 완전히 동일한 행이 있다면 첫 번째만 남기고 제거
df_clean = df_clean.drop_duplicates(keep='first')

Step 6: 날짜 처리 및 파생 변수 생성

날짜를 datetime 객체로 변환하고 분석에 필요한 연, 월, 요일 등을 생성합니다.

# 날짜 형식 변환
df_clean["date"] = pd.to_datetime(df_clean["date"])
# 파생 변수 생성: 연-월, 요일, 매출액(가격 * 수량)
df_clean["ym"] = df_clean["date"].dt.to_period("M").astype(str)
df_clean["day_name"] = df_clean["date"].dt.day_name()
df_clean["sales"] = df_clean["price"] * df_clean["qty"]

Step 7: 그룹화 및 집계 (요약 테이블 생성)

월별, 매장별 매출 등 리포트용 집계 데이터를 생성합니다.

⚠️ 주의: MULTIINDEX 처리
groupby 결과가 MultiIndex로 나오는 경우, reset_index()를 사용하여 일반적인 컬럼 형태의 DataFrame으로 변환해야 추후 활용이 편리합

# 월(ym) 및 요일(day_name)별 총 매출과 주문 건수 집계
summary_table = df_clean.groupby(["ym", "day_name"]).agg(
total_sales=("sales", "sum"),
order_count=("menu", "count")
).reset_index()

Step 8: 데이터 결합 및 피벗

추가 정보(카테고리 등)를 결합하거나 피벗 테이블로 형태를 변환합니다.

# 카테고리 정보 결합 (Merge)
# menu_map 테이블을 기준으로 'menu' 키를 사용하여 왼쪽 조인
df_final = df_clean.merge(menu_map, on="menu", how="left")
# 피벗 테이블 생성 (행: 월, 열: 요일, 값: 매출)
pivot_report = summary_table.pivot(index="ym", columns="day_name", values="sales")

Step 9: 최종 저장

전처리가 완료된 분석용 테이블과 요약 리포트를 파일로 저장합니다.

# 인덱스를 제외하고 utf-8-sig 인코딩으로 저장 (한글 깨짐 방지)
df_final.to_csv("cafe_sales_clean.csv", index=False, encoding="utf-8-sig")
pivot_report.to_csv("monthly_sales_report.csv", encoding="utf-8-sig")

'스파르타 내일배움캠프(25.12.01~)' 카테고리의 다른 글

스파르타 내일배움캠프_본캠프_data11기 김선영_TIL_Day 22 (0)	2026.01.23
스파르타 내일배움캠프_본캠프_data11기 김선영_TIL_Day 21 (0)	2026.01.22
스파르타 내일배움캠프_본캠프_data11기 김선영_TIL_Day 20 (0)	2026.01.20
스파르타 내일배움캠프_본캠프_data11기 김선영_TIL_Day 19 (1)	2026.01.19
데이터 전처리/시각화 1- Pandas로 CSV/Excel/JSON 다루기 (1)	2026.01.19

현재글📌 [개념정리] 데이터 전처리 / 시각화 개념 통합

🌿

선영님의 블로그입니다.

TIL, 소숫점 함수, 깊은 복사, 스파르타, 데이터분석입문, 내일배움캠프, 본캠프, 데이터분석 입문, 구글코랩, case when, 사전캠프, 데이터분석기초, 파이썬, 얕은 복사, ITL, 비전공자코딩, 문과생 코딩, 중학생 코딩, 코딩처음, 코딩입문,

Today :
Yesterday :

🌿