CodeGym /Kursy /Python SELF PL /Odczyt danych z plików Excel i przekształcenie ich w Data...

Odczyt danych z plików Excel i przekształcenie ich w DataFrame

Python SELF PL
Poziom 27 , Lekcja 2
Dostępny

1. Podstawowe metody pracy z plikami Excel w pandas

Odczyt danych za pomocą read_excel

Żeby zacząć pracę z plikami Excel, najpierw zainstaluj pandas i openpyxl, jeśli jeszcze tego nie zrobiłeś. Te dwie biblioteki to jak para starych, solidnych butów — bez nich nie wejdziesz w świat analizy danych.

Bash

pip install pandas openpyxl

Teraz jesteśmy gotowi na przetwarzanie tabel. pandas oferuje prostą i wygodną metodę read_excel, która pozwala ładować dane z plików Excel do DataFrame — standardowego formatu danych w pandas.

Python

import pandas as pd

# Odczyt danych z pliku Excel
data = pd.read_excel('example.xlsx')

# Wyjście pierwszych pięciu wierszy DataFrame
print(data.head())

I to wszystko! Odczytaliśmy dane z pliku Excel i przekształciliśmy je w DataFrame. Kilka mikrosekund, a już mamy na ekranie dane, dla których wcześniej musielibyśmy odpalić Excel.

Parametry odczytu danych

Metoda read_excel obsługuje wiele parametrów, które pozwalają odczytać dane z konkretnego arkusza, z określonego zakresu komórek i z podaniem formatów danych.

  • sheet_name: Określa nazwę arkusza lub jego indeks (licząc od 0), który ma zostać odczytany. Na przykład, sheet_name='Arkusz1' albo sheet_name=0.
  • usecols: Pozwala wybrać konkretne kolumny, które chcesz zaimportować. Na przykład, usecols="A:C", aby wybrać tylko pierwsze trzy kolumny.
  • skiprows: Pozwala ominąć pierwsze N wierszy w pliku. Przydatne, gdy trzeba pominąć nagłówki lub zbędne dane na początku pliku.
Python

# Odczyt danych z określonego arkusza i wybór kolumn
data_filtered = pd.read_excel('example.xlsx', sheet_name='Arkusz1', usecols="A:C", skiprows=2)

2. Przekształcenie danych w DataFrame

Czym jest DataFrame?

DataFrame to coś jak elektronika dla robota-odkurzacza: z zewnątrz może wygląda prosto (no tak, to tylko tabela), ale to właśnie dzięki niej odkurzacz wie, gdzie jechać, a DataFrame — jakie dane przechowywać i jak je przetwarzać.

DataFrame w pandas to dwuwymiarowa struktura danych, która posiada etykiety dla wierszy (indeks) i kolumn. W przeciwieństwie do standardowych list Python albo tablic NumPy, DataFrame pozwala pracować z danymi jak z tabelą w bazie danych albo Excelu.

Podstawowe operacje z DataFrame

Jedną z najlepszych funkcjonalności DataFrame w pandas jest możliwość bardzo prostej interakcji z danymi. Na przykład, możesz sortować dane, filtrować albo wybierać podzbiór wierszy czy kolumn.

Wybór kolumn

Wybór kolumn odbywa się po nazwach. Pamiętasz, jak w Excelu: po prostu klikasz na nagłówek kolumny, żeby ją zaznaczyć. Tutaj jest jeszcze prościej:

Python

# Wybór jednej kolumny
dates = data['Data']

# Wybór kilku kolumn
subset = data[['Imię', 'Pensja']]

Wybór wierszy

Jeśli potrzebujesz dostępu do wierszy, możesz korzystać z metod iloc do indeksowania oraz loc do pracy z etykietami.

Python

# Wybór pierwszego wiersza
first_row = data.iloc[0]

# Wybór wierszy z warunkiem
high_salary = data[data['Pensja'] > 50000]

3. Przykłady i praktyka

Teraz, gdy mamy podstawowe zrozumienie kolekcji danych w DataFrame, poćwiczmy trochę. Załóżmy, że mamy plik Excel data.xlsx z kilkoma arkuszami, a my chcemy wydobyć dane z określonego arkusza, przetworzyć je i wypisać w konsoli.

Ćwiczenie praktyczne

Twoje zadanie: napisz skrypt, który odczyta dane z pliku data.xlsx, wybierze arkusz Sprzedaż i odfiltruje sprzedaż o wartości powyżej 1000 jednostek.

Python

# Odczyt danych z arkusza 'Sprzedaż' i filtracja
sales_data = pd.read_excel('data.xlsx', sheet_name='Sprzedaż')
high_sales = sales_data[sales_data['Kwota'] > 1000]

print(high_sales)

To ćwiczenie pozwoli Ci poczuć magię pandas i poczuć się jak czarodziej danych. Oczywiście, nie wydarzy się nic niemożliwego, ale tabele zmienią się w przydatne informacje — i dla świata analityki to prawdziwa magia!

4. Błędy i specyfika implementacji

Często początkujący zapominają o drobiazgach, takich jak nazwa kolumn z uwzględnieniem wielkości liter, albo o tym, że pandas domyślnie traktuje pierwszy wiersz jako nagłówki. Jeśli Twoje dane są inne, możesz napotkać błędy. Zawsze sprawdzaj nazwy kolumn po załadowaniu pliku, używając print(data.columns).

I jeszcze jedna ważna sprawa: jeśli próbujesz ładować pliki, stworzone przez wielkie korporacje, dane w nich mogą być zaszyfrowane. pandas tutaj nie pomoże, ale zawsze pomoże filiżanka mocnej kawy i przerwa!

Cała ta wiedza pozwoli Ci zautomatyzować rutynę, gdy trzeba pracować z danymi z Excela. Automatyzacja tych procesów nie tylko zaoszczędzi Ci czasu, ale również uwolni od logistycznych koszmarów związanych z kopiowaniem i wklejaniem. Twoje skrypty w Pythonie będą działać jak automatyczni asystenci, zdolni do natychmiastowego przygotowywania danych do raportów.

Komentarze
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION