1. Grundlagen der Datenfilterung in DataFrame
Warum ist Filtern wichtig?
So wie Filter in deiner Lieblings-Selfie-App hilft uns das Filtern in pandas, uns auf das Wesentliche zu konzentrieren. Wir können unnötige Daten ausschließen und nur das behalten, was wirklich zählt. Das ist ein grundlegendes Werkzeug für die Datenanalyse, besonders wenn wir Berichte erstellen oder mit großen Datensätzen arbeiten.
Unser erstes Filtern
Lass uns mit einem einfachen Beispiel starten. Wir haben einen DataFrame
mit
Informationen über den Verkauf von Produkten:
import pandas as pd
data = {
"Produkt": ["Orangen", "Bananen", "Äpfel", "Orangen", "Äpfel"],
"Menge": [10, 5, 8, 7, 6],
"Preis": [3.5, 2.0, 4.0, 3.0, 4.5]
}
df = pd.DataFrame(data)
# Filtern der Produkte nach Name
filtered_df = df[df["Produkt"] == "Orangen"]
print(filtered_df)
Verwendung von Bedingungen
Wir können Bedingungen kombinieren, wie bei einem Multi-Filter! Zum Beispiel finden wir alle Produkte, von denen mehr als 6 Stück verkauft wurden, zu einem Preis von maximal 3.5 Einheiten:
# Bedingungen kombinieren mit & (logisches "und")
filtered_df = df[(df["Menge"] > 6) & (df["Preis"] <= 3.5)]
print(filtered_df)
Wichtige Punkte merken
Vergiss nicht, dass wir in pandas eckige Klammern verwenden, um Filter zu erstellen, und runde Klammern für Bedingungen. Du willst doch nicht die Person sein, die diese Klammern vergisst, oder?
2. Sortieren von Daten
Warum ist Sortieren wichtig?
Das Sortieren von Daten ermöglicht es uns, Struktur und Ordnung im Chaos zu erkennen (falls Datensätze überhaupt Chaos haben können). Stell dir vor, du bist in einer Bibliothek, in der Bücher chaotisch verstreut sind – Albtraum! Sortieren hilft, Informationen zu ordnen, sei es für Analysen, Berichte oder einfach, um den richtigen Wert zu finden.
Sortieren nach einer Spalte
Lass uns unseren DataFrame
nach Preis der Produkte in
aufsteigender Reihenfolge sortieren:
# Sortieren nach aufsteigendem Preis
sorted_df = df.sort_values(by="Preis")
print(sorted_df)
Sortieren nach mehreren Spalten
Stell dir vor, du musst die Daten zuerst nach Menge und, wenn die Menge gleich ist, nach Preis in absteigender Reihenfolge sortieren. So geht das:
# Sortieren nach Menge und Preis
sorted_df = df.sort_values(by=["Menge", "Preis"], ascending=[True, False])
print(sorted_df)
Besonderheiten beim Sortieren
Achte auf den Parameter ascending
. Er erlaubt es,
festzulegen, in welcher Reihenfolge (aufsteigend oder absteigend) du
die Daten sortieren möchtest. Das ist praktisch, wenn du "böse" über deine Daten herrschen möchtest.
3. Praktische Anwendung
Praktische Aufgabe
Jetzt ist es Zeit, unser Wissen in die Praxis umzusetzen! Angenommen, du bist Analyst in einem Unternehmen, das Gadgets verkauft. Deine Aufgabe ist es, alle Handymodelle zu finden, die in einer Menge von mehr als 100 Einheiten verkauft wurden, und sie nach absteigendem Gewinn zu sortieren.
# Verkaufsdaten von Handys
data = {
"Modell": ["Phone X", "Phone Y", "Phone Z", "Phone X", "Phone Y"],
"Verkauft": [120, 150, 90, 130, 80],
"Gewinn": [200, 180, 220, 210, 190]
}
df = pd.DataFrame(data)
# Filtern von Modellen mit Verkäufen über 100
filtered_df = df[df["Verkauft"] > 100]
# Sortieren nach absteigendem Gewinn
sorted_df = filtered_df.sort_values(by="Gewinn", ascending=False)
print(sorted_df)
Analyse und Diskussion
Verwende eine Kombination aus Filtern und Sortieren, um die Daten zu erhalten, die wirklich interessant und wichtig für dich oder deinen Bericht sind. Wie bei jedem anderen Werkzeug werden Filtern und Sortieren durch Übung mächtiger. Und vergiss nicht, gut formatierte Daten sind nicht nur Segen für Analysten, sondern auch ihr größter Stolz.
Typische Fehler
Manche Anfänger vergessen manchmal, runde
Klammern in den Filterbedingungen zu verwenden, was zu Fehlern führt. Das ist
wie der Deckel auf einem Topf zu vergessen – alles könnte außer Kontrolle geraten.
Ein weiterer häufiger Fehler ist, die Reihenfolge der Sortierung nach mehreren Feldern
falsch anzugeben. Achte darauf, ascending
richtig zu verwenden, damit
nicht alles durcheinander gerät.
Praktische Anwendung
In der Praxis sind Filtern und Sortieren unverzichtbare Werkzeuge für jeden Datenanalysten. Sie helfen schnell, die benötigten Daten aus komplexen Datensätzen herauszuholen und sie für Berichte vorzubereiten. In der realen Welt werden sie überall verwendet: von Fintech bis hin zur medizinischen Forschung. Zum Beispiel können Banken Transaktionen filtern, um verdächtige Aktivitäten aufzudecken, und Forscher sortieren Daten zu Medikamententests, um versteckte Abhängigkeiten zu erkennen. Ganz zu schweigen davon, dass das Wissen über diese Werkzeuge ein nützlicher Verbündeter in Vorstellungsgesprächen sein kann.
4. Externe Ressourcen zum Lernen
Für diejenigen, die das Thema vertiefen möchten, empfehle ich, die offizielle pandas-Dokumentation durchzusehen, die eine großartige Quelle ist, um alle Möglichkeiten dieser Bibliothek zu verstehen. Dort findest du viele Beispiele und Erklärungen, die dir helfen, dieses Tool auf professionellem Niveau zu beherrschen.
GO TO FULL VERSION