CodeGym /Java Kurs /Python SELF DE /Filtern und Sortieren von Daten für Analysen und Berichte...

Filtern und Sortieren von Daten für Analysen und Berichte

Python SELF DE
Level 27 , Lektion 4
Verfügbar

1. Grundlagen der Datenfilterung in DataFrame

Warum ist Filtern wichtig?

So wie Filter in deiner Lieblings-Selfie-App hilft uns das Filtern in pandas, uns auf das Wesentliche zu konzentrieren. Wir können unnötige Daten ausschließen und nur das behalten, was wirklich zählt. Das ist ein grundlegendes Werkzeug für die Datenanalyse, besonders wenn wir Berichte erstellen oder mit großen Datensätzen arbeiten.

Unser erstes Filtern

Lass uns mit einem einfachen Beispiel starten. Wir haben einen DataFrame mit Informationen über den Verkauf von Produkten:

Python

import pandas as pd

data = {
    "Produkt": ["Orangen", "Bananen", "Äpfel", "Orangen", "Äpfel"],
    "Menge": [10, 5, 8, 7, 6],
    "Preis": [3.5, 2.0, 4.0, 3.0, 4.5]
}

df = pd.DataFrame(data)

# Filtern der Produkte nach Name
filtered_df = df[df["Produkt"] == "Orangen"]
print(filtered_df)

Verwendung von Bedingungen

Wir können Bedingungen kombinieren, wie bei einem Multi-Filter! Zum Beispiel finden wir alle Produkte, von denen mehr als 6 Stück verkauft wurden, zu einem Preis von maximal 3.5 Einheiten:

Python

# Bedingungen kombinieren mit & (logisches "und")
filtered_df = df[(df["Menge"] > 6) & (df["Preis"] <= 3.5)]
print(filtered_df)

Wichtige Punkte merken

Vergiss nicht, dass wir in pandas eckige Klammern verwenden, um Filter zu erstellen, und runde Klammern für Bedingungen. Du willst doch nicht die Person sein, die diese Klammern vergisst, oder?

2. Sortieren von Daten

Warum ist Sortieren wichtig?

Das Sortieren von Daten ermöglicht es uns, Struktur und Ordnung im Chaos zu erkennen (falls Datensätze überhaupt Chaos haben können). Stell dir vor, du bist in einer Bibliothek, in der Bücher chaotisch verstreut sind – Albtraum! Sortieren hilft, Informationen zu ordnen, sei es für Analysen, Berichte oder einfach, um den richtigen Wert zu finden.

Sortieren nach einer Spalte

Lass uns unseren DataFrame nach Preis der Produkte in aufsteigender Reihenfolge sortieren:

Python

# Sortieren nach aufsteigendem Preis
sorted_df = df.sort_values(by="Preis")
print(sorted_df)

Sortieren nach mehreren Spalten

Stell dir vor, du musst die Daten zuerst nach Menge und, wenn die Menge gleich ist, nach Preis in absteigender Reihenfolge sortieren. So geht das:

Python

# Sortieren nach Menge und Preis
sorted_df = df.sort_values(by=["Menge", "Preis"], ascending=[True, False])
print(sorted_df)

Besonderheiten beim Sortieren

Achte auf den Parameter ascending. Er erlaubt es, festzulegen, in welcher Reihenfolge (aufsteigend oder absteigend) du die Daten sortieren möchtest. Das ist praktisch, wenn du "böse" über deine Daten herrschen möchtest.

3. Praktische Anwendung

Praktische Aufgabe

Jetzt ist es Zeit, unser Wissen in die Praxis umzusetzen! Angenommen, du bist Analyst in einem Unternehmen, das Gadgets verkauft. Deine Aufgabe ist es, alle Handymodelle zu finden, die in einer Menge von mehr als 100 Einheiten verkauft wurden, und sie nach absteigendem Gewinn zu sortieren.

Python

# Verkaufsdaten von Handys
data = {
    "Modell": ["Phone X", "Phone Y", "Phone Z", "Phone X", "Phone Y"],
    "Verkauft": [120, 150, 90, 130, 80],
    "Gewinn": [200, 180, 220, 210, 190]
}

df = pd.DataFrame(data)

# Filtern von Modellen mit Verkäufen über 100
filtered_df = df[df["Verkauft"] > 100]

# Sortieren nach absteigendem Gewinn
sorted_df = filtered_df.sort_values(by="Gewinn", ascending=False)
print(sorted_df)

Analyse und Diskussion

Verwende eine Kombination aus Filtern und Sortieren, um die Daten zu erhalten, die wirklich interessant und wichtig für dich oder deinen Bericht sind. Wie bei jedem anderen Werkzeug werden Filtern und Sortieren durch Übung mächtiger. Und vergiss nicht, gut formatierte Daten sind nicht nur Segen für Analysten, sondern auch ihr größter Stolz.

Typische Fehler

Manche Anfänger vergessen manchmal, runde Klammern in den Filterbedingungen zu verwenden, was zu Fehlern führt. Das ist wie der Deckel auf einem Topf zu vergessen – alles könnte außer Kontrolle geraten. Ein weiterer häufiger Fehler ist, die Reihenfolge der Sortierung nach mehreren Feldern falsch anzugeben. Achte darauf, ascending richtig zu verwenden, damit nicht alles durcheinander gerät.

Praktische Anwendung

In der Praxis sind Filtern und Sortieren unverzichtbare Werkzeuge für jeden Datenanalysten. Sie helfen schnell, die benötigten Daten aus komplexen Datensätzen herauszuholen und sie für Berichte vorzubereiten. In der realen Welt werden sie überall verwendet: von Fintech bis hin zur medizinischen Forschung. Zum Beispiel können Banken Transaktionen filtern, um verdächtige Aktivitäten aufzudecken, und Forscher sortieren Daten zu Medikamententests, um versteckte Abhängigkeiten zu erkennen. Ganz zu schweigen davon, dass das Wissen über diese Werkzeuge ein nützlicher Verbündeter in Vorstellungsgesprächen sein kann.

4. Externe Ressourcen zum Lernen

Für diejenigen, die das Thema vertiefen möchten, empfehle ich, die offizielle pandas-Dokumentation durchzusehen, die eine großartige Quelle ist, um alle Möglichkeiten dieser Bibliothek zu verstehen. Dort findest du viele Beispiele und Erklärungen, die dir helfen, dieses Tool auf professionellem Niveau zu beherrschen.

1
Опрос
Arbeiten mit Excel,  27 уровень,  4 лекция
недоступен
Arbeiten mit Excel
Arbeiten mit Excel
Kommentare
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION