1. Metodi principali per lavorare con file Excel in pandas
Lettura dei dati con read_excel
Per iniziare a lavorare con i file Excel, la prima cosa da fare è installare pandas e openpyxl, se non lo hai già fatto. Queste due librerie sono come un paio di vecchie scarpe affidabili — senza di loro non si entra nel mondo dell'analisi dati.
pip install pandas openpyxl
Ora siamo pronti a digerire le tabelle. pandas offre un metodo semplice e comodo: read_excel, che ti permette di caricare i dati dai file Excel in un DataFrame — il formato standard dei dati in pandas.
import pandas as pd
# Lettura dei dati dal file Excel
data = pd.read_excel('example.xlsx')
# Stampa delle prime cinque righe del DataFrame
print(data.head())
Tutto qua! Abbiamo letto i dati dal file Excel e li abbiamo convertiti in un DataFrame. Pochi microsecondi e voilà, ecco i dati sullo schermo, quelli che prima avresti dovuto aprire in Excel.
Parametri per la lettura dei dati
Il metodo read_excel supporta molti parametri che ti permettono di leggere i dati da un foglio specifico, da un intervallo di celle determinato e con formati di dati specificati.
-
sheet_name: Specifica il nome o l'indice del foglio (partendo da 0) da leggere. Per esempio,sheet_name='Foglio1'oppuresheet_name=0. -
usecols: Ti consente di selezionare le colonne specifiche che vuoi importare. Per esempio,usecols="A:C", per selezionare solo le prime tre colonne. -
skiprows: Consente di saltare le primeNrighe del file. Questo è utile quando vuoi eliminare intestazioni o dati inutili all'inizio del file.
# Lettura dei dati da un determinato foglio e selezione di colonne
data_filtered = pd.read_excel('example.xlsx', sheet_name='Foglio1', usecols="A:C", skiprows=2)
2. Conversione dei dati in DataFrame
Cos'è un DataFrame?
Il DataFrame è come l'elettronica per un robot aspirapolvere: esternamente può sembrare semplice (ok, è solo una tabella), ma grazie a esso l'aspirapolvere sa dove andare, e il DataFrame sa quali dati memorizzare e come elaborarli.
Il DataFrame in pandas è una struttura di dati bidimensionale che ha etichette per righe (indice) e colonne. A differenza delle liste standard di Python o degli array NumPy, il DataFrame ti permette di lavorare con i dati come con una tabella in un database o in Excel.
Operazioni di base con il DataFrame
Una delle migliori caratteristiche del DataFrame in pandas è che rende molto semplice interagire con i dati. Ad esempio, puoi ordinare i dati, filtrarli o selezionare sottoinsiemi di righe e colonne.
Selezione delle colonne
La selezione di una colonna si fa semplicemente tramite i nomi. Ricordi come in Excel: basta cliccare sull'intestazione della colonna per selezionarla. Qui è ancora più facile:
# Selezione di una colonna
dates = data['Data']
# Selezione di più colonne
subset = data[['Nome', 'Stipendio']]
Selezione delle righe
Se hai bisogno di accedere alle righe, puoi usare il metodo iloc per indicizzazione e loc per lavorare con le etichette.
# Selezione della prima riga
first_row = data.iloc[0]
# Selezione delle righe con una condizione
high_salary = data[data['Stipendio'] > 50000]
3. Esempi e pratica
Ora che abbiamo una comprensione di base della gestione dei dati in un DataFrame, esercitiamoci un po'. Supponiamo di avere un file Excel data.xlsx con diversi fogli, e vogliamo estrarre i dati da un foglio specifico, elaborarli e stamparli in console.
Esercizio pratico
Compito: scrivi uno script che legga i dati dal file data.xlsx, selezioni il foglio Vendite e filtri le vendite con un importo maggiore di 1000 unità.
# Lettura dei dati dal foglio 'Vendite' e filtraggio
sales_data = pd.read_excel('data.xlsx', sheet_name='Vendite')
high_sales = sales_data[sales_data['Importo'] > 1000]
print(high_sales)
Questo esercizio ti permetterà di sentire la magia di pandas e di sentirti un mago dei dati. Ovviamente, non accadrà nulla di impossibile, ma le tabelle si trasformano in informazioni utili — e per il mondo dell'analisi questo è vero incantesimo!
4. Errori e particolarità di implementazione
Spesso i principianti dimenticano dettagli come i nomi delle colonne con distinzione di maiuscole/minuscole, o il fatto che pandas assume per default che la prima riga sia l'intestazione. Se i tuoi dati sono diversi, potresti incontrare errori. Sii amico dei tuoi dati: verifica sempre i nomi delle colonne dopo aver caricato il file, usando print(data.columns).
Un’altra cosa importante: se stai provando a caricare file creati da grandi aziende, i dati in essi potrebbero essere criptati. pandas non potrà aiutarti in questo caso, ma una tazza di caffè forte e una pausa sicuramente sì!
Tutte queste conoscenze ti aiuteranno ad automatizzare la routine quando devi lavorare con dati da Excel. Automatizzare questi processi non solo ti farà risparmiare tempo, ma eliminerà anche gli incubi logistici legati al copia e incolla. I tuoi script Python diventeranno assistenti automatici, capaci di preparare rapporti istantaneamente.
GO TO FULL VERSION