CodeGym /Kurslar /Python SELF AZ /Excel fayllardakı məlumatları oxumaq və onları DataFrame ...

Excel fayllardakı məlumatları oxumaq və onları DataFrame çevirmək

Python SELF AZ
Səviyyə , Dərs
Mövcuddur

1. pandas ilə Excel faylları ilə işləməyin əsas metodları

Məlumatların read_excel ilə oxunması

Excel faylları ilə işləməyə başlamaq üçün ilk növbədə pandasopenpyxl quraşdırın, əgər hələ bunu etməmisinizsə. Bu iki kitabxana etibarlı köhnə ayaqqabı cütü kimidir — məlumat təhlili dünyasına onlarsız girmək mümkün deyil.

Bash

pip install pandas openpyxl

İndi biz cədvəlləri "həzm etməyə" hazırıq. pandas sadə və rahat bir metod təklif edir: read_excel, bu metod Excel fayllarından məlumatları DataFrame-ə yükləməyə imkan verir — bu, pandas-dakı standart məlumat formatıdır.

Python

import pandas as pd

# Excel faylından məlumatların oxunması
data = pd.read_excel('example.xlsx')

# DataFrame-dən ilk beş sətiri çıxarmaq
print(data.head())

Budur! Excel faylından məlumatları oxuduq və onları DataFrame-ə çevirdik. Bunu yalnız bir neçə millisaniyə ərzində etdik və artıq Excel açmadan məlumatları ekranda görürük.

Məlumat oxumaq üçün parametrlər

read_excel metodu müxtəlif parametrləri dəstəkləyir, bunlar müəyyən bir sheet-dən, konkret hüceyrə diapazonundan və ya məlumat formatlarını göstərməklə məlumatları oxumağa imkan verir.

  • sheet_name: Oxunacaq sheet-in adını və ya indeksini (0-dan başlayaraq) göstərir. Məsələn, sheet_name='Sheet1' və ya sheet_name=0.
  • usecols: İstədiyiniz konkret sütunları seçməyə imkan verir. Məsələn, usecols="A:C", yalnız ilk üç sütunu seçmək üçün.
  • skiprows: Fayldakı ilk N sətiri keçməyə imkan verir. Bu faylın əvvəlində başlıqları və ya lazımsız məlumatları atmaq üçün faydalıdır.
Python

# Müəyyən sheet-dən məlumat oxunması və sütunların seçilməsi
data_filtered = pd.read_excel('example.xlsx', sheet_name='Sheet1', usecols="A:C", skiprows=2)

2. Məlumatların DataFrame-ə çevrilməsi

DataFrame nədir?

DataFrame — bu, robot-tozsoran üçün elektronika kimidir: çölə baxanda sadə görünür (hə, bu sadəcə cədvəldir), amma bu, tozsoranın hara gedəcəyini bilməsinə imkan verir, DataFrame isə hansı məlumatların saxlanacağını və necə işlənəcəyini.

pandas-dakı DataFrame — bu, cərgələr (indeks) və sütunlar üzrə etiketlərə malik olan ikiölçülü məlumat strukturudur. Standart Python siyahılarından və ya NumPy massivlərindən fərqli olaraq, DataFrame məlumatlarla verilənlər bazasında və ya Excel-də cədvəl kimi işləməyə imkan verir.

DataFrame-lə əsas əməliyyatlar

pandas-dakı DataFrame-in ən yaxşı xüsusiyyətlərindən biri — məlumatlarla çox sadə şəkildə qarşılıqlı əlaqədə olmaq imkanıdır. Məsələn, məlumatları çeşidləyə, filtrləyə və ya cərgə və sütunların alt çoxluğunu seçə bilərsiniz.

Sütunların seçilməsi

Sütunun seçilməsi sadəcə adlarına əsasən həyata keçirilir. Excel-də olduğu kimi xatırlayın: sadəcə sütunun başlığına klikləyirsiniz və o seçilir. Burda daha sadə ola bilməz:

Python

# Bir sütunun seçilməsi
dates = data['Tarix']

# Bir neçə sütunun seçilməsi
subset = data[['Ad', 'Maaş']]

Cərgələrin seçilməsi

Cərgələrə daxil olmaq lazımdırsa, iloc metodu indeksasiya üçün və loc metodu isə etiketlərlə işləmək üçün istifadə edilə bilər.

Python

# Birinci cərgənin seçilməsi
first_row = data.iloc[0]

# Şərtə uyğun cərgələrin seçilməsi
high_salary = data[data['Maaş'] > 50000]

3. Nümunələr və praktika

İndi DataFrame-də məlumat toplama haqqında əsas anlayışımız var, gəlin bir az praktika edək. Təsəvvür edin ki, bizdə data.xlsx adlı Excel-faylı var, bir neçə səhifəsi var və biz müəyyən bir səhifədən məlumat çıxarmaq, onları işləmək və konsola çıxarmaq istəyirik.

Praktik tapşırıq

Sizin tapşırığınız: data.xlsx faylından məlumat oxuyan, Satışlar səhifəsini seçən və 1000 vahiddən böyük məbləğlər üzrə satışları filtr edən skript yazmaq.

Python

# 'Satışlar' səhifəsindən məlumat oxuma və filtrasiya
sales_data = pd.read_excel('data.xlsx', sheet_name='Satışlar')
high_sales = sales_data[sales_data['Məbləğ'] > 1000]

print(high_sales)

Bu tapşırıq sizə pandas-ın sehrini hiss etməyə və məlumat sehrbazı kimi hiss etməyə kömək edəcək. Əlbəttə, heç bir qeyri-mümkün baş verməyəcək, amma cədvəllər faydalı informasiyaya çevriləcək — və analitika dünyasında bu, əsl sehrdir!

4. Səhvlər və reallaşdırma xüsusiyyətləri

Yeni başlayanlar tez-tez kiçik detalları unudurlar, məsələn, sütun adlarının böyük-kiçik hərf fərqini nəzərə almamaq və ya pandas-ın default olaraq ilk sıranı başlıq kimi qəbul etməsi. Əgər məlumatlarınız fərqlidirsə, problemlərlə üzləşə bilərsiniz. Məlumatlarınızla dost olun: faylı yüklədikdən sonra həmişə sütun adlarını print(data.columns) istifadə edərək yoxlayın.

Bir də vacib bir məqam: əgər böyük şirkətlər tərəfindən yaradılmış faylları yükləməyə çalışırsınızsa, onların məlumatları şifrəli ola bilər. pandas bu halda kömək etməz, amma bir fincan güclü qəhvə və fasilə hər zaman kömək edər!

Bu biliklər sizə Excel-dən olan məlumatlarla işləmək üçün lazımlı rutin işləri avtomatlaşdırmağa kömək edəcək. Bu proseslərin avtomatlaşdırılması təkcə vaxtınıza qənaət etməyəcək, həmçinin copy-paste ilə əlaqədar logistika kabuslarından sizi qurtaracaq. Python skriptləriniz avtomatik köməkçi kimi çıxış edərək hesabat məlumatlarını dərhal hazırlamağa qadir olacaq.

Şərhlər
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION