1. Daten für Berichte strukturieren
Wenn du einen Bericht erstellst, ist es wichtig, nicht einfach nur eine Menge Daten hübsch zu verpacken, sondern die Informationen verständlich und zugänglich zu machen. Die Datenaufbereitung beeinflusst direkt, wie leicht und schnell dein Bericht aufgenommen wird.
Pivot-Tabellen: Dein Schweizer Taschenmesser für Berichte
Pivot-Tabellen sind eine leistungsstarke Methode zum Zusammenfassen, Aggregieren und Präsentieren von Daten, die oft in Excel verwendet wird. Mit pandas können wir einfach Pivot-Tabellen mit der Methode pivot_table erstellen. Schauen wir uns ein einfaches Beispiel an.
Stell dir vor, du hast Daten zu Verkäufen in einem Geschäft:
import pandas as pd
data = {
'Produkt': ['Orange', 'Apfel', 'Banane', 'Orange', 'Banane', 'Apfel'],
'Monat': ['Januar', 'Januar', 'Januar', 'Februar', 'Februar', 'Februar'],
'Verkäufe': [150, 200, 250, 130, 180, 210]
}
df = pd.DataFrame(data)
Um eine Pivot-Tabelle zu erstellen, die die Gesamtsumme der Verkäufe jedes Produkts für jeden Monat zeigt, verwenden wir pivot_table.
pivot_df = df.pivot_table(values='Verkäufe', index='Produkt', columns='Monat', aggfunc='sum')
print(pivot_df)
Dieses einfache Beispiel zeigt, wie man Daten schnell nach Kategorien und Daten aggregieren kann — die perfekte Grundlage für Berichte.
2. Methoden von pandas zur Datenaufbereitung nutzen
Die Methode pivot_table
Die Methode pivot_table ist extrem flexibel und erlaubt nicht nur das Summieren von Daten, sondern auch andere Aggregationsfunktionen wie mean, count, usw. anzuwenden. Schauen wir uns an, wie man Daten aufbereitet, um den Durchschnitt der Verkäufe zu zeigen:
pivot_mean_df = df.pivot_table(values='Verkäufe', index='Produkt', columns='Monat', aggfunc='mean')
print(pivot_mean_df)
Die Methode crosstab
Die Methode crosstab in pandas ähnelt Pivot-Tabellen, wird jedoch für Häufigkeitsberechnungen verwendet. Stell dir vor, wir wollen zählen, wie oft jedes Produkt in verschiedenen Monaten verkauft wurde:
cross_df = pd.crosstab(df['Produkt'], df['Monat'])
print(cross_df)
Diese Methode ist nützlich, wenn man die Verteilung von Daten über Kategorien hinweg oder die Häufigkeit von Ereignissen analysieren möchte.
3. Anpassung der Datenanzeige mit mehrdimensionalen Indizes
Mehrdimensionale Indizes
Ja, pandas erlaubt es dir, über zweidimensionale Daten hinauszugehen und mehrdimensionale Indizes zu verwenden. Das ist nützlich, um Daten mit mehreren Aggregationsebenen darzustellen. Zum Beispiel fügen wir unserem Datensatz "Jahr" hinzu und erstellen einen mehrdimensionalen Index.
data['Jahr'] = [2023, 2023, 2023, 2024, 2024, 2024]
df = pd.DataFrame(data)
multi_pivot_df = df.pivot_table(values='Verkäufe', index=['Jahr', 'Produkt'], columns='Monat', aggfunc='sum')
print(multi_pivot_df)
Jetzt sind unsere Daten nach Jahren und Produkten aggregiert, was sie informativer macht.
4. Übung und Analyse
Lasst uns das Gelernte in die Praxis umsetzen. Aufgabe: Bereiten Sie Daten für Verkaufsberichte vor.
Stellen Sie sich vor, Sie haben die folgenden Verkaufsdaten:
data = {
'Produkt': ['Orange', 'Orange', 'Apfel', 'Apfel', 'Banane', 'Banane'],
'Monat': ['Januar', 'Februar', 'Januar', 'Februar', 'Januar', 'Februar'],
'Jahr': [2023, 2023, 2024, 2024, 2023, 2024],
'Verkäufe': [150, 200, 180, 220, 120, 130]
}
df = pd.DataFrame(data)
Ihre Aufgabe ist es, eine Pivot-Tabelle zu erstellen, die die Gesamtsumme der Verkäufe für jedes Produkt in jedem Monat sowie die Gesamtsumme für die Jahre anzeigt.
pivot_total_df = df.pivot_table(values='Verkäufe', index=['Jahr', 'Produkt'], columns='Monat', aggfunc='sum', margins=True, margins_name='Gesamt')
print(pivot_total_df)
Diese Zeile „Gesamt“ zeigt die Summe über alle Kategorien hinweg, was oft für einen vollständigen Überblick notwendig ist.
5. Diskussion über Strategien zur Datenpräsentation und Analyse
Die Datenaufbereitung für Berichte mit pandas ist nicht nur Mathematik, sondern auch Kunst. Ein wichtiger Teil dieses Prozesses ist es, die informativste Art der Datenpräsentation zu wählen, sei es Tabellen mit einfachen Summen oder komplexe Diagramme. In der realen Welt hilft eine solche Strukturierung nicht nur, die aktuellen Kennzahlen zu verstehen, sondern auch fundierte Entscheidungen zu treffen.
Wenn du ein Meister in der automatisierten Berichtsvorbereitung werden willst, vergiss nicht die Möglichkeiten von pandas und sei nicht zu faul, mit verschiedenen Methoden und Techniken zu experimentieren. Diese Fähigkeit wird dir nicht nur bei der Erstellung analytischer Übersichten helfen, sondern auch bei Vorstellungsgesprächen und in deiner zukünftigen Karriere. Tauche mutig in die Welt der Daten ein und mache deine Berichte bunt, informativ und leicht verständlich!
GO TO FULL VERSION