1. Básico da filtragem de dados em DataFrame
Por que a filtragem é importante?
Assim como os filtros no seu app de selfie favorito, a filtragem no pandas ajuda a gente a focar no que é mais importante. Podemos excluir dados desnecessários e deixar só o que realmente conta. É uma ferramenta básica pra analisar dados, especialmente quando precisamos preparar relatórios ou entender conjuntos de dados grandes.
Nossa primeira filtragem
Bora começar com um exemplo simples. Temos um DataFrame com informações sobre vendas de produtos:
import pandas as pd
data = {
"Produto": ["Laranjas", "Bananas", "Maçãs", "Laranjas", "Maçãs"],
"Quantidade": [10, 5, 8, 7, 6],
"Preço": [3.5, 2.0, 4.0, 3.0, 4.5]
}
df = pd.DataFrame(data)
# Filtrando produtos pelo nome
filtered_df = df[df["Produto"] == "Laranjas"]
print(filtered_df)
Usando condições
Dá pra combinar condições, tipo um multifiltro! Por exemplo, vamos achar todos os produtos com quantidade maior que 6 e preço de no máximo 3.5 unidades:
# Combinando condições com & (lógico "e")
filtered_df = df[(df["Quantidade"] > 6) & (df["Preço"] <= 3.5)]
print(filtered_df)
Guardando os pontos importantes
Não esqueça que no pandas usamos colchetes pra criar filtros e parênteses pras condições. Você não quer ser "aquela pessoa" que esquece esses parênteses, né?
2. Ordenação de dados
Por que ordenar é importante?
Ordenar os dados permite que a gente veja estrutura e ordem no caos (se é que conjuntos de dados podem ter caos). Por exemplo, imagine que você está numa biblioteca onde os livros estão jogados pra todo lado — um pesadelo! Ordenar ajuda a organizar a informação, seja pra análise, relatórios ou só pra achar aquele valor necessário.
Ordenação por uma coluna
Vamos organizar nosso DataFrame por ordem crescente do preço dos produtos:
# Ordenando por preço em ordem crescente
sorted_df = df.sort_values(by="Preço")
print(sorted_df)
Ordenação por várias colunas
Imagine que você precisa ordenar os dados primeiro pela quantidade e, caso a quantidade seja igual, pelo preço, em ordem decrescente. É assim que você faz:
# Ordenando por quantidade e preço
sorted_df = df.sort_values(by=["Quantidade", "Preço"], ascending=[True, False])
print(sorted_df)
Detalhes sobre ordenação
Fique de olho no parâmetro ascending. Ele permite definir em qual ordem (crescente ou decrescente) você quer ordenar os dados. Isso é útil pra quando você quiser "dominar" seus dados com poder total.
3. Aplicação prática
Exercício prático
Agora é hora de colocar o que aprendemos em prática! Suponha que você é um analista numa empresa que vende gadgets. Sua tarefa é encontrar todos os modelos de celular que venderam mais de 100 unidades e ordená-los por lucro decrescente.
# Dados de vendas de celulares
data = {
"Modelo": ["Phone X", "Phone Y", "Phone Z", "Phone X", "Phone Y"],
"Vendidos": [120, 150, 90, 130, 80],
"Lucro": [200, 180, 220, 210, 190]
}
df = pd.DataFrame(data)
# Filtrando modelos com vendas acima de 100
filtered_df = df[df["Vendidos"] > 100]
# Ordenando por lucro decrescente
sorted_df = filtered_df.sort_values(by="Lucro", ascending=False)
print(sorted_df)
Análise e discussão
Use uma combinação de filtros e ordenações pra obter os dados que realmente interessam pra você ou pro seu relatório. Assim como qualquer outra ferramenta, a filtragem e ordenação ficam mais poderosas com a prática. E não esqueça, dados bem organizados não são apenas uma bênção pro analista, mas também seu maior orgulho.
Erros comuns
Alguns iniciantes às vezes esquecem de usar os parênteses nas condições de filtragem, o que gera erros. É tipo esquecer de tampar uma panela — tudo pode sair do controle. Outro erro comum é configurar errado a ordem de ordenação em múltiplos campos. Certifique-se de usar ascending corretamente pra não deixar tudo de ponta-cabeça.
Aplicação prática
Na prática, a filtragem e a ordenação são ferramentas indispensáveis pra qualquer analista de dados. Elas ajudam a obter rapidamente os dados necessários de conjuntos complexos e prepará-los pra relatórios. No mundo real, são usadas em todo lugar: desde fintechs até pesquisas médicas. Por exemplo, bancos podem filtrar transações pra identificar atividades suspeitas, e pesquisadores ordenam dados de ensaios clínicos pra encontrar correlações ocultas. Sem falar que saber usar essas ferramentas pode ser seu melhor aliado numa entrevista de emprego.
4. Recursos externos para estudo
Pra quem quer se aprofundar no tema, recomendo dar uma olhada na documentação oficial do pandas, que é uma fonte excelente pra entender todas as possibilidades dessa biblioteca. Lá você vai encontrar muitos exemplos e explicações que vão te ajudar a dominar essa ferramenta em nível profissional.
GO TO FULL VERSION