1. pandas에서 Excel 파일 작업의 기본 메서드
read_excel을 사용한 데이터 읽기
Excel 파일 작업을 시작하려면 먼저 pandas와 openpyxl을 설치해. 아직 설치하지 않았다면 말이야. 이 두 라이브러리는 마치 믿음직한 낡은 신발처럼 데이터 분석의 세계로 들어가기 위해 필수야.
pip install pandas openpyxl
이제 테이블을 처리할 준비가 됐어. pandas는 read_excel이라는 간단하고 편리한 메서드를 제공해서 데이터를 Excel 파일에서 DataFrame으로 불러올 수 있어. DataFrame은 pandas의 표준 데이터 형식이야.
import pandas as pd
# Excel 파일에서 데이터 읽기
data = pd.read_excel('example.xlsx')
# DataFrame의 첫 5줄 출력
print(data.head())
그게 다야! 우리는 Excel 파일에서 데이터를 읽고 DataFrame으로 변환했어. 몇 초 만에, 예전에는 Excel을 실행해야 할 데이터를 화면에서 바로 볼 수 있어.
데이터 읽기 매개변수
read_excel 메서드는 특정 시트, 셀 범위, 데이터 형식 등을 지정하여 데이터를 읽을 수 있는 여러 매개변수를 지원해.
-
sheet_name: 읽을 시트의 이름이나 인덱스(0에서 시작)를 지정해. 예:sheet_name='Sheet1'또는sheet_name=0. -
usecols: 불러오려는 특정 열을 선택할 수 있어. 예: 첫 세 열만 선택하려면usecols="A:C". -
skiprows: 파일에서 처음N개의 줄을 건너뛸 수 있어. 파일의 시작 부분에 있는 헤더나 불필요한 데이터를 무시할 때 유용해.
# 특정 시트와 열을 선택하여 데이터 읽기
data_filtered = pd.read_excel('example.xlsx', sheet_name='Sheet1', usecols="A:C", skiprows=2)
2. 데이터를 DataFrame으로 변환하기
DataFrame이란?
DataFrame은 로봇 청소기의 전자장치 같은 거야: 겉으로는 단순해 보이지만(그냥 테이블처럼), 로봇이 갈 곳을 알고 DataFrame이 데이터를 저장하고 처리할 방법을 제공하는 거야.
pandas의 DataFrame은 행(인덱스)과 열의 레이블이 있는 2차원 데이터 구조야. 표준 Python 리스트나 NumPy 배열과는 달리, DataFrame은 데이터베이스의 테이블이나 Excel 테이블처럼 데이터를 처리할 수 있어.
DataFrame의 기본 작업
pandas의 DataFrame의 가장 멋진 점은 데이터를 정말 간단하게 조작할 수 있다는 거야. 예를 들어 데이터를 정렬하거나 필터링하거나 행과 열의 하위 집합을 선택할 수 있어.
열 선택
열 선택은 이름을 기준으로 이루어져. Excel처럼 헤더를 클릭해서 열을 선택하는 것처럼 말이야. 여긴 더 쉬워:
# 하나의 열 선택
dates = data['날짜']
# 여러 열 선택
subset = data[['이름', '월급']]
행 선택
행에 접근하려면 iloc 메서드를 사용한 인덱싱이나 loc 메서드를 사용한 레이블 작업을 사용하면 돼.
# 첫 번째 행 선택
first_row = data.iloc[0]
# 조건에 따른 행 선택
high_salary = data[data['월급'] > 50000]
3. 예제와 실습
이제 DataFrame에서 데이터 컬렉션에 대한 기본적인 이해가 생겼으니까 조금 연습해 보자. 가정해 보자, 우리가 여러 개의 시트가 있는 Excel 파일 data.xlsx를 가지고 있고, 특정 시트에서 데이터를 추출하고 처리한 다음 콘솔에 출력하고 싶어.
실습 과제
네 과제: data.xlsx 파일의 데이터를 읽어와 판매 시트를 선택하고 총 판매량이 1000 단위를 초과하는 항목을 필터링하는 스크립트를 작성해.
# '판매' 시트 데이터 읽기 및 필터링
sales_data = pd.read_excel('data.xlsx', sheet_name='판매')
high_sales = sales_data[sales_data['총액'] > 1000]
print(high_sales)
이 실습을 통해 pandas의 마법을 체험하고 데이터 마법사가 된 기분을 느껴봐. 물론 현실의 마법은 아니지만, 테이블이 유용한 정보로 변환되는 건 데이터 분석의 세계에서는 진정한 마법이야!
4. 오류와 구현의 독특함
초보자들은 대개 대소문자를 구분해야 하는 열 이름 같은 사소한 부분을 잊거나, pandas가 기본적으로 첫 줄을 헤더로 간주한다는 사실을 잊어버릴 수 있어. 데이터를 불러온 후 열 이름을 확인하려면 print(data.columns)를 사용해.
그리고 또 한 가지 중요한 점: 대기업에서 만든 파일을 불러오려고 하면, 그 안의 데이터가 암호화된 경우가 있어. pandas로는 그걸 해결할 수 없지만, 강한 커피 한 잔과 휴식이 항상 도움이 될 거야!
이 모든 지식은 Excel 데이터를 다룰 때 반복 작업을 자동화하는 데 도움이 될 거야. 이런 프로세스를 자동화하면 시간을 절약할 뿐만 아니라 복붙으로 인한 악몽에서도 벗어나게 될 거야. 네 Python 스크립트가 자동 비서처럼 동작하면서 보고 데이터를 즉시 준비할 수 있도록 만들어 줄 거야.
GO TO FULL VERSION