CodeGym /Cursos /Python SELF PT /Lendo dados de arquivos Excel e transformando-os em DataF...

Lendo dados de arquivos Excel e transformando-os em DataFrame

Python SELF PT
Nível 27 , Lição 2
Disponível

1. Métodos básicos para trabalhar com arquivos Excel no pandas

Lendo dados com read_excel

Para começar a trabalhar com arquivos Excel, a primeira coisa que você deve fazer é instalar pandas e openpyxl, se ainda não tiver. Essas duas bibliotecas são como um par de tênis confortável — sem elas, você nem entra no mundo da análise de dados.

Bash

pip install pandas openpyxl

Agora estamos prontos para mastigar tabelas. pandas oferece um método simples e prático, read_excel, que permite carregar dados de arquivos Excel em um DataFrame — o formato padrão de dados no pandas.

Python

import pandas as pd

# Lendo dados de um arquivo Excel
data = pd.read_excel('example.xlsx')

# Exibindo as primeiras cinco linhas do DataFrame
print(data.head())

E é isso aí! Lemos os dados de um arquivo Excel e os transformamos em um DataFrame. Em questão de microssegundos, já temos na tela os dados que antes precisávamos abrir no Excel.

Parâmetros para leitura de dados

O método read_excel suporta diversos parâmetros que permitem ler dados de uma planilha específica, de um intervalo de células específico e especificar os formatos de dados.

  • sheet_name: Especifica o nome ou índice da planilha (começando com 0) que você quer ler. Por exemplo, sheet_name='Planilha1' ou sheet_name=0.
  • usecols: Permite selecionar colunas específicas que você quer importar. Por exemplo, usecols="A:C", para selecionar apenas as três primeiras colunas.
  • skiprows: Permite pular as primeiras N linhas do arquivo. Isso é útil quando você quer ignorar cabeçalhos ou dados desnecessários no início do arquivo.
Python

# Lendo dados de uma planilha específica e escolhendo colunas
data_filtered = pd.read_excel('example.xlsx', sheet_name='Planilha1', usecols="A:C", skiprows=2)

2. Transformando dados em DataFrame

O que é um DataFrame?

Um DataFrame é como a eletrônica de um robô aspirador: por fora pode parecer simples (sim, é só uma tabela), mas é graças a ele que o robô sabe para onde ir e o DataFrame sabe quais dados armazenar e como processá-los.

O DataFrame no pandas é uma estrutura de dados bidimensional que possui rótulos para as linhas (índice) e colunas. Diferente das listas padrão do Python ou arrays do NumPy, o DataFrame permite trabalhar com dados como em uma tabela de um banco de dados ou no Excel.

Operações básicas com DataFrame

Uma das melhores coisas do DataFrame no pandas é a facilidade de interação com os dados. Por exemplo, você pode ordenar os dados, filtrá-los ou selecionar subconjuntos de linhas e colunas.

Selecionando colunas

Selecionar uma coluna é super simples. Lembra como no Excel você só clica no cabeçalho da coluna para selecioná-la? Aqui é mais fácil ainda:

Python

# Selecionando uma coluna
dates = data['Data']

# Selecionando múltiplas colunas
subset = data[['Nome', 'Salário']]

Selecionando linhas

Se você precisa acessar linhas, pode usar os métodos iloc para indexação e loc para trabalhar com rótulos.

Python

# Selecionando a primeira linha
first_row = data.iloc[0]

# Selecionando linhas com condição
high_salary = data[data['Salário'] > 50000]

3. Exemplos e prática

Agora que temos uma compreensão básica sobre a coleta de dados em um DataFrame, vamos praticar um pouco. Suponha que temos um arquivo Excel chamado data.xlsx com várias planilhas, e queremos extrair dados de uma planilha específica, processá-los e exibi-los no console.

Exercício prático

Sua missão: escreva um script que leia dados do arquivo data.xlsx, selecione a planilha Vendas e filtre as vendas com valores acima de 1000 unidades.

Python

# Lendo dados da planilha 'Vendas' e aplicando filtro
sales_data = pd.read_excel('data.xlsx', sheet_name='Vendas')
high_sales = sales_data[sales_data['Valor'] > 1000]

print(high_sales)

Esse exercício vai te permitir sentir a mágica do pandas e se perceber como um mago dos dados. Claro, não vai ser nada sobrenatural, mas transformar tabelas em informações úteis já é uma espécie de magia no mundo da análise!

4. Erros e peculiaridades

Muitas vezes, iniciantes esquecem pequenos detalhes, como os nomes das colunas com diferenciação de maiúsculas/minúsculas, ou que o pandas por padrão considera a primeira linha como cabeçalhos. Se seus dados forem diferentes, você pode encontrar erros. Tenha um bom relacionamento com seus dados: sempre confira os nomes das colunas depois de carregar o arquivo, usando print(data.columns).

E mais uma coisa importante: se você estiver tentando carregar arquivos criados por grandes corporações, os dados podem estar criptografados. pandas não vai te salvar aqui, mas uma boa xícara de café e uma pausa sempre ajudam!

Todo esse conhecimento vai te ajudar a automatizar tarefas repetitivas quando for trabalhar com dados do Excel. Automatizar esses processos não apenas economiza tempo, mas também livra você de pesadelos logísticos relacionados a copiar e colar. Seus scripts em Python vão funcionar como assistentes automáticos, capazes de preparar relatórios em um piscar de olhos.

Comentários
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION