CodeGym /Kurse /Python SELF DE /Datenaufbereitung für Berichte mit Methoden von pandas

Datenaufbereitung für Berichte mit Methoden von pandas

Python SELF DE
Level 28 , Lektion 3
Verfügbar

1. Daten für Berichte strukturieren

Wenn du einen Bericht erstellst, ist es wichtig, nicht einfach nur eine Menge Daten hübsch zu verpacken, sondern die Informationen verständlich und zugänglich zu machen. Die Datenaufbereitung beeinflusst direkt, wie leicht und schnell dein Bericht aufgenommen wird.

Pivot-Tabellen: Dein Schweizer Taschenmesser für Berichte

Pivot-Tabellen sind eine leistungsstarke Methode zum Zusammenfassen, Aggregieren und Präsentieren von Daten, die oft in Excel verwendet wird. Mit pandas können wir einfach Pivot-Tabellen mit der Methode pivot_table erstellen. Schauen wir uns ein einfaches Beispiel an.

Stell dir vor, du hast Daten zu Verkäufen in einem Geschäft:

Python

import pandas as pd

data = {
    'Produkt': ['Orange', 'Apfel', 'Banane', 'Orange', 'Banane', 'Apfel'],
    'Monat': ['Januar', 'Januar', 'Januar', 'Februar', 'Februar', 'Februar'],
    'Verkäufe': [150, 200, 250, 130, 180, 210]
}

df = pd.DataFrame(data)

Um eine Pivot-Tabelle zu erstellen, die die Gesamtsumme der Verkäufe jedes Produkts für jeden Monat zeigt, verwenden wir pivot_table.

Python

pivot_df = df.pivot_table(values='Verkäufe', index='Produkt', columns='Monat', aggfunc='sum')
print(pivot_df)

Dieses einfache Beispiel zeigt, wie man Daten schnell nach Kategorien und Daten aggregieren kann — die perfekte Grundlage für Berichte.

2. Methoden von pandas zur Datenaufbereitung nutzen

Die Methode pivot_table

Die Methode pivot_table ist extrem flexibel und erlaubt nicht nur das Summieren von Daten, sondern auch andere Aggregationsfunktionen wie mean, count, usw. anzuwenden. Schauen wir uns an, wie man Daten aufbereitet, um den Durchschnitt der Verkäufe zu zeigen:

Python

pivot_mean_df = df.pivot_table(values='Verkäufe', index='Produkt', columns='Monat', aggfunc='mean')
print(pivot_mean_df)

Die Methode crosstab

Die Methode crosstab in pandas ähnelt Pivot-Tabellen, wird jedoch für Häufigkeitsberechnungen verwendet. Stell dir vor, wir wollen zählen, wie oft jedes Produkt in verschiedenen Monaten verkauft wurde:

Python

cross_df = pd.crosstab(df['Produkt'], df['Monat'])
print(cross_df)

Diese Methode ist nützlich, wenn man die Verteilung von Daten über Kategorien hinweg oder die Häufigkeit von Ereignissen analysieren möchte.

3. Anpassung der Datenanzeige mit mehrdimensionalen Indizes

Mehrdimensionale Indizes

Ja, pandas erlaubt es dir, über zweidimensionale Daten hinauszugehen und mehrdimensionale Indizes zu verwenden. Das ist nützlich, um Daten mit mehreren Aggregationsebenen darzustellen. Zum Beispiel fügen wir unserem Datensatz "Jahr" hinzu und erstellen einen mehrdimensionalen Index.

Python

data['Jahr'] = [2023, 2023, 2023, 2024, 2024, 2024]
df = pd.DataFrame(data)

multi_pivot_df = df.pivot_table(values='Verkäufe', index=['Jahr', 'Produkt'], columns='Monat', aggfunc='sum')
print(multi_pivot_df)

Jetzt sind unsere Daten nach Jahren und Produkten aggregiert, was sie informativer macht.

4. Übung und Analyse

Lasst uns das Gelernte in die Praxis umsetzen. Aufgabe: Bereiten Sie Daten für Verkaufsberichte vor.

Stellen Sie sich vor, Sie haben die folgenden Verkaufsdaten:

Python

data = {
    'Produkt': ['Orange', 'Orange', 'Apfel', 'Apfel', 'Banane', 'Banane'],
    'Monat': ['Januar', 'Februar', 'Januar', 'Februar', 'Januar', 'Februar'],
    'Jahr': [2023, 2023, 2024, 2024, 2023, 2024],
    'Verkäufe': [150, 200, 180, 220, 120, 130]
}

df = pd.DataFrame(data)

Ihre Aufgabe ist es, eine Pivot-Tabelle zu erstellen, die die Gesamtsumme der Verkäufe für jedes Produkt in jedem Monat sowie die Gesamtsumme für die Jahre anzeigt.

Python

pivot_total_df = df.pivot_table(values='Verkäufe', index=['Jahr', 'Produkt'], columns='Monat', aggfunc='sum', margins=True, margins_name='Gesamt')
print(pivot_total_df)

Diese Zeile „Gesamt“ zeigt die Summe über alle Kategorien hinweg, was oft für einen vollständigen Überblick notwendig ist.

5. Diskussion über Strategien zur Datenpräsentation und Analyse

Die Datenaufbereitung für Berichte mit pandas ist nicht nur Mathematik, sondern auch Kunst. Ein wichtiger Teil dieses Prozesses ist es, die informativste Art der Datenpräsentation zu wählen, sei es Tabellen mit einfachen Summen oder komplexe Diagramme. In der realen Welt hilft eine solche Strukturierung nicht nur, die aktuellen Kennzahlen zu verstehen, sondern auch fundierte Entscheidungen zu treffen.

Wenn du ein Meister in der automatisierten Berichtsvorbereitung werden willst, vergiss nicht die Möglichkeiten von pandas und sei nicht zu faul, mit verschiedenen Methoden und Techniken zu experimentieren. Diese Fähigkeit wird dir nicht nur bei der Erstellung analytischer Übersichten helfen, sondern auch bei Vorstellungsgesprächen und in deiner zukünftigen Karriere. Tauche mutig in die Welt der Daten ein und mache deine Berichte bunt, informativ und leicht verständlich!

Kommentare
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION