1. Podstawowe metody pracy z plikami Excel w pandas
Odczyt danych za pomocą read_excel
Żeby zacząć pracę z plikami Excel, najpierw zainstaluj pandas
i openpyxl
, jeśli jeszcze tego nie zrobiłeś. Te dwie biblioteki to jak para starych, solidnych butów — bez nich nie wejdziesz w świat analizy danych.
pip install pandas openpyxl
Teraz jesteśmy gotowi na przetwarzanie tabel. pandas
oferuje prostą i wygodną metodę read_excel
, która pozwala ładować dane z plików Excel do DataFrame
— standardowego formatu danych w pandas
.
import pandas as pd
# Odczyt danych z pliku Excel
data = pd.read_excel('example.xlsx')
# Wyjście pierwszych pięciu wierszy DataFrame
print(data.head())
I to wszystko! Odczytaliśmy dane z pliku Excel i przekształciliśmy je w DataFrame
. Kilka mikrosekund, a już mamy na ekranie dane, dla których wcześniej musielibyśmy odpalić Excel.
Parametry odczytu danych
Metoda read_excel
obsługuje wiele parametrów, które pozwalają odczytać dane z konkretnego arkusza, z określonego zakresu komórek i z podaniem formatów danych.
-
sheet_name
: Określa nazwę arkusza lub jego indeks (licząc od 0), który ma zostać odczytany. Na przykład,sheet_name='Arkusz1'
albosheet_name=0
. -
usecols
: Pozwala wybrać konkretne kolumny, które chcesz zaimportować. Na przykład,usecols="A:C"
, aby wybrać tylko pierwsze trzy kolumny. -
skiprows
: Pozwala ominąć pierwszeN
wierszy w pliku. Przydatne, gdy trzeba pominąć nagłówki lub zbędne dane na początku pliku.
# Odczyt danych z określonego arkusza i wybór kolumn
data_filtered = pd.read_excel('example.xlsx', sheet_name='Arkusz1', usecols="A:C", skiprows=2)
2. Przekształcenie danych w DataFrame
Czym jest DataFrame
?
DataFrame
to coś jak elektronika dla robota-odkurzacza: z zewnątrz może wygląda prosto (no tak, to tylko tabela), ale to właśnie dzięki niej odkurzacz wie, gdzie jechać, a DataFrame
— jakie dane przechowywać i jak je przetwarzać.
DataFrame
w pandas
to dwuwymiarowa struktura danych, która posiada etykiety dla wierszy (indeks) i kolumn. W przeciwieństwie do standardowych list Python albo tablic NumPy
, DataFrame
pozwala pracować z danymi jak z tabelą w bazie danych albo Excelu.
Podstawowe operacje z DataFrame
Jedną z najlepszych funkcjonalności DataFrame
w pandas
jest możliwość bardzo prostej interakcji z danymi. Na przykład, możesz sortować dane, filtrować albo wybierać podzbiór wierszy czy kolumn.
Wybór kolumn
Wybór kolumn odbywa się po nazwach. Pamiętasz, jak w Excelu: po prostu klikasz na nagłówek kolumny, żeby ją zaznaczyć. Tutaj jest jeszcze prościej:
# Wybór jednej kolumny
dates = data['Data']
# Wybór kilku kolumn
subset = data[['Imię', 'Pensja']]
Wybór wierszy
Jeśli potrzebujesz dostępu do wierszy, możesz korzystać z metod iloc
do indeksowania oraz loc
do pracy z etykietami.
# Wybór pierwszego wiersza
first_row = data.iloc[0]
# Wybór wierszy z warunkiem
high_salary = data[data['Pensja'] > 50000]
3. Przykłady i praktyka
Teraz, gdy mamy podstawowe zrozumienie kolekcji danych w DataFrame
, poćwiczmy trochę. Załóżmy, że mamy plik Excel data.xlsx
z kilkoma arkuszami, a my chcemy wydobyć dane z określonego arkusza, przetworzyć je i wypisać w konsoli.
Ćwiczenie praktyczne
Twoje zadanie: napisz skrypt, który odczyta dane z pliku data.xlsx
, wybierze arkusz Sprzedaż i odfiltruje sprzedaż o wartości powyżej 1000 jednostek.
# Odczyt danych z arkusza 'Sprzedaż' i filtracja
sales_data = pd.read_excel('data.xlsx', sheet_name='Sprzedaż')
high_sales = sales_data[sales_data['Kwota'] > 1000]
print(high_sales)
To ćwiczenie pozwoli Ci poczuć magię pandas
i poczuć się jak czarodziej danych. Oczywiście, nie wydarzy się nic niemożliwego, ale tabele zmienią się w przydatne informacje — i dla świata analityki to prawdziwa magia!
4. Błędy i specyfika implementacji
Często początkujący zapominają o drobiazgach, takich jak nazwa kolumn z uwzględnieniem wielkości liter, albo o tym, że pandas
domyślnie traktuje pierwszy wiersz jako nagłówki. Jeśli Twoje dane są inne, możesz napotkać błędy. Zawsze sprawdzaj nazwy kolumn po załadowaniu pliku, używając print(data.columns)
.
I jeszcze jedna ważna sprawa: jeśli próbujesz ładować pliki, stworzone przez wielkie korporacje, dane w nich mogą być zaszyfrowane. pandas
tutaj nie pomoże, ale zawsze pomoże filiżanka mocnej kawy i przerwa!
Cała ta wiedza pozwoli Ci zautomatyzować rutynę, gdy trzeba pracować z danymi z Excela. Automatyzacja tych procesów nie tylko zaoszczędzi Ci czasu, ale również uwolni od logistycznych koszmarów związanych z kopiowaniem i wklejaniem. Twoje skrypty w Pythonie będą działać jak automatyczni asystenci, zdolni do natychmiastowego przygotowywania danych do raportów.
GO TO FULL VERSION