1. Métodos básicos para trabalhar com arquivos Excel no pandas
Lendo dados com read_excel
Para começar a trabalhar com arquivos Excel, a primeira coisa que você deve fazer é instalar pandas e openpyxl, se ainda não tiver. Essas duas bibliotecas são como um par de tênis confortável — sem elas, você nem entra no mundo da análise de dados.
pip install pandas openpyxl
Agora estamos prontos para mastigar tabelas. pandas oferece um método simples e prático, read_excel, que permite carregar dados de arquivos Excel em um DataFrame — o formato padrão de dados no pandas.
import pandas as pd
# Lendo dados de um arquivo Excel
data = pd.read_excel('example.xlsx')
# Exibindo as primeiras cinco linhas do DataFrame
print(data.head())
E é isso aí! Lemos os dados de um arquivo Excel e os transformamos em um DataFrame. Em questão de microssegundos, já temos na tela os dados que antes precisávamos abrir no Excel.
Parâmetros para leitura de dados
O método read_excel suporta diversos parâmetros que permitem ler dados de uma planilha específica, de um intervalo de células específico e especificar os formatos de dados.
-
sheet_name: Especifica o nome ou índice da planilha (começando com 0) que você quer ler. Por exemplo,sheet_name='Planilha1'ousheet_name=0. -
usecols: Permite selecionar colunas específicas que você quer importar. Por exemplo,usecols="A:C", para selecionar apenas as três primeiras colunas. -
skiprows: Permite pular as primeirasNlinhas do arquivo. Isso é útil quando você quer ignorar cabeçalhos ou dados desnecessários no início do arquivo.
# Lendo dados de uma planilha específica e escolhendo colunas
data_filtered = pd.read_excel('example.xlsx', sheet_name='Planilha1', usecols="A:C", skiprows=2)
2. Transformando dados em DataFrame
O que é um DataFrame?
Um DataFrame é como a eletrônica de um robô aspirador: por fora pode parecer simples (sim, é só uma tabela), mas é graças a ele que o robô sabe para onde ir e o DataFrame sabe quais dados armazenar e como processá-los.
O DataFrame no pandas é uma estrutura de dados bidimensional que possui rótulos para as linhas (índice) e colunas. Diferente das listas padrão do Python ou arrays do NumPy, o DataFrame permite trabalhar com dados como em uma tabela de um banco de dados ou no Excel.
Operações básicas com DataFrame
Uma das melhores coisas do DataFrame no pandas é a facilidade de interação com os dados. Por exemplo, você pode ordenar os dados, filtrá-los ou selecionar subconjuntos de linhas e colunas.
Selecionando colunas
Selecionar uma coluna é super simples. Lembra como no Excel você só clica no cabeçalho da coluna para selecioná-la? Aqui é mais fácil ainda:
# Selecionando uma coluna
dates = data['Data']
# Selecionando múltiplas colunas
subset = data[['Nome', 'Salário']]
Selecionando linhas
Se você precisa acessar linhas, pode usar os métodos iloc para indexação e loc para trabalhar com rótulos.
# Selecionando a primeira linha
first_row = data.iloc[0]
# Selecionando linhas com condição
high_salary = data[data['Salário'] > 50000]
3. Exemplos e prática
Agora que temos uma compreensão básica sobre a coleta de dados em um DataFrame, vamos praticar um pouco. Suponha que temos um arquivo Excel chamado data.xlsx com várias planilhas, e queremos extrair dados de uma planilha específica, processá-los e exibi-los no console.
Exercício prático
Sua missão: escreva um script que leia dados do arquivo data.xlsx, selecione a planilha Vendas e filtre as vendas com valores acima de 1000 unidades.
# Lendo dados da planilha 'Vendas' e aplicando filtro
sales_data = pd.read_excel('data.xlsx', sheet_name='Vendas')
high_sales = sales_data[sales_data['Valor'] > 1000]
print(high_sales)
Esse exercício vai te permitir sentir a mágica do pandas e se perceber como um mago dos dados. Claro, não vai ser nada sobrenatural, mas transformar tabelas em informações úteis já é uma espécie de magia no mundo da análise!
4. Erros e peculiaridades
Muitas vezes, iniciantes esquecem pequenos detalhes, como os nomes das colunas com diferenciação de maiúsculas/minúsculas, ou que o pandas por padrão considera a primeira linha como cabeçalhos. Se seus dados forem diferentes, você pode encontrar erros. Tenha um bom relacionamento com seus dados: sempre confira os nomes das colunas depois de carregar o arquivo, usando print(data.columns).
E mais uma coisa importante: se você estiver tentando carregar arquivos criados por grandes corporações, os dados podem estar criptografados. pandas não vai te salvar aqui, mas uma boa xícara de café e uma pausa sempre ajudam!
Todo esse conhecimento vai te ajudar a automatizar tarefas repetitivas quando for trabalhar com dados do Excel. Automatizar esses processos não apenas economiza tempo, mas também livra você de pesadelos logísticos relacionados a copiar e colar. Seus scripts em Python vão funcionar como assistentes automáticos, capazes de preparar relatórios em um piscar de olhos.
GO TO FULL VERSION