1. pandas ilə Excel faylları ilə işləməyin əsas metodları
Məlumatların read_excel
ilə oxunması
Excel faylları ilə işləməyə başlamaq üçün ilk növbədə pandas
və openpyxl
quraşdırın, əgər hələ bunu etməmisinizsə. Bu iki kitabxana etibarlı köhnə ayaqqabı cütü kimidir — məlumat təhlili dünyasına onlarsız girmək mümkün deyil.
pip install pandas openpyxl
İndi biz cədvəlləri "həzm etməyə" hazırıq. pandas
sadə və rahat bir metod təklif edir: read_excel
, bu metod Excel fayllarından məlumatları DataFrame
-ə yükləməyə imkan verir — bu, pandas
-dakı standart məlumat formatıdır.
import pandas as pd
# Excel faylından məlumatların oxunması
data = pd.read_excel('example.xlsx')
# DataFrame-dən ilk beş sətiri çıxarmaq
print(data.head())
Budur! Excel faylından məlumatları oxuduq və onları DataFrame
-ə çevirdik. Bunu yalnız bir neçə millisaniyə ərzində etdik və artıq Excel açmadan məlumatları ekranda görürük.
Məlumat oxumaq üçün parametrlər
read_excel
metodu müxtəlif parametrləri dəstəkləyir, bunlar müəyyən bir sheet-dən, konkret hüceyrə diapazonundan və ya məlumat formatlarını göstərməklə məlumatları oxumağa imkan verir.
-
sheet_name
: Oxunacaq sheet-in adını və ya indeksini (0-dan başlayaraq) göstərir. Məsələn,sheet_name='Sheet1'
və yasheet_name=0
. -
usecols
: İstədiyiniz konkret sütunları seçməyə imkan verir. Məsələn,usecols="A:C"
, yalnız ilk üç sütunu seçmək üçün. -
skiprows
: Fayldakı ilkN
sətiri keçməyə imkan verir. Bu faylın əvvəlində başlıqları və ya lazımsız məlumatları atmaq üçün faydalıdır.
# Müəyyən sheet-dən məlumat oxunması və sütunların seçilməsi
data_filtered = pd.read_excel('example.xlsx', sheet_name='Sheet1', usecols="A:C", skiprows=2)
2. Məlumatların DataFrame
-ə çevrilməsi
DataFrame
nədir?
DataFrame
— bu, robot-tozsoran üçün elektronika kimidir: çölə baxanda sadə görünür (hə, bu sadəcə cədvəldir), amma bu, tozsoranın hara gedəcəyini bilməsinə imkan verir, DataFrame
isə hansı məlumatların saxlanacağını və necə işlənəcəyini.
pandas
-dakı DataFrame
— bu, cərgələr (indeks) və sütunlar üzrə etiketlərə malik olan ikiölçülü məlumat strukturudur. Standart Python siyahılarından və ya NumPy
massivlərindən fərqli olaraq, DataFrame
məlumatlarla verilənlər bazasında və ya Excel-də cədvəl kimi işləməyə imkan verir.
DataFrame
-lə əsas əməliyyatlar
pandas
-dakı DataFrame
-in ən yaxşı xüsusiyyətlərindən biri — məlumatlarla çox sadə şəkildə qarşılıqlı əlaqədə olmaq imkanıdır. Məsələn, məlumatları çeşidləyə, filtrləyə və ya cərgə və sütunların alt çoxluğunu seçə bilərsiniz.
Sütunların seçilməsi
Sütunun seçilməsi sadəcə adlarına əsasən həyata keçirilir. Excel-də olduğu kimi xatırlayın: sadəcə sütunun başlığına klikləyirsiniz və o seçilir. Burda daha sadə ola bilməz:
# Bir sütunun seçilməsi
dates = data['Tarix']
# Bir neçə sütunun seçilməsi
subset = data[['Ad', 'Maaş']]
Cərgələrin seçilməsi
Cərgələrə daxil olmaq lazımdırsa, iloc
metodu indeksasiya üçün və loc
metodu isə etiketlərlə işləmək üçün istifadə edilə bilər.
# Birinci cərgənin seçilməsi
first_row = data.iloc[0]
# Şərtə uyğun cərgələrin seçilməsi
high_salary = data[data['Maaş'] > 50000]
3. Nümunələr və praktika
İndi DataFrame
-də məlumat toplama haqqında əsas anlayışımız var, gəlin bir az praktika edək. Təsəvvür edin ki, bizdə data.xlsx
adlı Excel-faylı var, bir neçə səhifəsi var və biz müəyyən bir səhifədən məlumat çıxarmaq, onları işləmək və konsola çıxarmaq istəyirik.
Praktik tapşırıq
Sizin tapşırığınız: data.xlsx
faylından məlumat oxuyan, Satışlar səhifəsini seçən və 1000 vahiddən böyük məbləğlər üzrə satışları filtr edən skript yazmaq.
# 'Satışlar' səhifəsindən məlumat oxuma və filtrasiya
sales_data = pd.read_excel('data.xlsx', sheet_name='Satışlar')
high_sales = sales_data[sales_data['Məbləğ'] > 1000]
print(high_sales)
Bu tapşırıq sizə pandas
-ın sehrini hiss etməyə və məlumat sehrbazı kimi hiss etməyə kömək edəcək. Əlbəttə, heç bir qeyri-mümkün baş verməyəcək, amma cədvəllər faydalı informasiyaya çevriləcək — və analitika dünyasında bu, əsl sehrdir!
4. Səhvlər və reallaşdırma xüsusiyyətləri
Yeni başlayanlar tez-tez kiçik detalları unudurlar, məsələn, sütun adlarının böyük-kiçik hərf fərqini nəzərə almamaq və ya pandas
-ın default olaraq ilk sıranı başlıq kimi qəbul etməsi. Əgər məlumatlarınız fərqlidirsə, problemlərlə üzləşə bilərsiniz. Məlumatlarınızla dost olun: faylı yüklədikdən sonra həmişə sütun adlarını print(data.columns)
istifadə edərək yoxlayın.
Bir də vacib bir məqam: əgər böyük şirkətlər tərəfindən yaradılmış faylları yükləməyə çalışırsınızsa, onların məlumatları şifrəli ola bilər. pandas
bu halda kömək etməz, amma bir fincan güclü qəhvə və fasilə hər zaman kömək edər!
Bu biliklər sizə Excel-dən olan məlumatlarla işləmək üçün lazımlı rutin işləri avtomatlaşdırmağa kömək edəcək. Bu proseslərin avtomatlaşdırılması təkcə vaxtınıza qənaət etməyəcək, həmçinin copy-paste ilə əlaqədar logistika kabuslarından sizi qurtaracaq. Python skriptləriniz avtomatik köməkçi kimi çıxış edərək hesabat məlumatlarını dərhal hazırlamağa qadir olacaq.
GO TO FULL VERSION