CodeGym /Java Kurs /Python SELF DE /Datenformatierung und Bereinigung von Tabellen von unnöti...

Datenformatierung und Bereinigung von Tabellen von unnötigen Informationen

Python SELF DE
Level 28 , Lektion 2
Verfügbar

1. Warum ist das wichtig?

Stell dir vor, du bist ein Ingenieur in einer Datenfabrik. Du musst das Rohmaterial (Daten) analysieren und organisieren, um ein fertiges Produkt (Erkenntnisse, Berichte) zu erhalten. Ohne Bereinigung und Formatierung bleiben deine Daten wie ein Haufen verstreuter Ersatzteile, aus denen man schwer etwas zusammenbauen kann.

Saubere und formatierte Daten sind nicht nur eine Frage der Ästhetik und Lesbarkeit, sondern auch eine wichtige Voraussetzung für eine korrekte Analyse und das Erstellen von Modellen. Falsch verarbeitete Daten können zu fehlerhaften Ergebnissen führen, und niemand möchte am Ende eines Arbeitstages feststellen, dass man das Durchschnittsalter der Mitarbeiter nicht in Jahren, sondern in kleinen Bruchstücken von Daten berechnet hat.

Hauptaufgaben der Formatierung

Bevor wir uns dem Code zuwenden, schauen wir uns an, welche Probleme wir mit der Formatierung vermeiden und lösen möchten:

  • Löschen leerer Zeilen und Spalten: Sie sind wie leere Taschen – bringen keinen Nutzen, können aber leicht verwirren.
  • Löschen von Duplikaten: Wiederholte Einträge erzeugen Lärm in unseren Daten.
  • Ausfüllen fehlender Werte: Das ist wie Löcher im Käse, die man manchmal mit etwas Leckerem füllen sollte.
  • Datentypumwandlung: Es ist wichtig sicherzustellen, dass das Alter eine Zahl ist und kein Text. Damit man nicht das tatsächliche Alter mit „25 Jahre Berufserfahrung“, in Anführungszeichen geschrieben, verwechselt.

2. Werkzeuge zur Bereinigung und Formatierung von Daten

Jetzt, wo wir wissen, warum das wichtig ist, schauen wir uns die Werkzeuge an, die uns dabei helfen, wie ein Schweizer Taschenmesser beim Camping:

  • Entfernen leerer Werte: dropna()
  • Arbeiten mit Duplikaten: duplicated() und drop_duplicates()
  • Füllen von Lücken: fillna()
  • Datentypumwandlung: astype()

Entfernen leerer Werte

Leere Werte sind eine dieser Sachen, die immer zur falschen Zeit auftauchen. Mithilfe von dropna() können wir sie loswerden wie alte Socken. Hier ein Beispiel:

Python

import pandas as pd

# Erstellen eines DataFrames mit leeren Werten
data = {'Name': ['Anna', 'Ivan', None, 'Maria'],
        'Alter': [29, None, 34, 23],
        'Stadt': ['Moskau', 'St. Petersburg', 'Nowosibirsk', None]}

df = pd.DataFrame(data)

# Löschen von Zeilen mit NaN-Werten
cleaned_df = df.dropna()

print(cleaned_df)

Dieser Code löscht alle Zeilen, die mindestens einen leeren Wert enthalten.

Arbeiten mit Duplikaten

Manchmal treten in deinen Daten Duplikate auf, wie im Spiel "Finde die Unterschiede", wo es keine Unterschiede gibt. Solche Einträge können wir mit drop_duplicates() entfernen.

Python

# Erstellen eines DataFrames mit Duplikaten
data = {'Name': ['Anna', 'Ivan', 'Anna', 'Maria'],
        'Alter': [29, 34, 29, 23]}

df = pd.DataFrame(data)

# Entfernen von Duplikaten
unique_df = df.drop_duplicates()

print(unique_df)

Füllen von Lücken

Fehlende Werte können auf verschiedene Weise gefüllt werden, zum Beispiel mit dem Durchschnittswert oder einem festen Wert. Die Methode fillna() hilft dir dabei:

Python

# Füllen der Lücken in 'Alter' mit dem Durchschnittswert der Spalte
df['Alter'] = df['Alter'].fillna(df['Alter'].mean())

print(df)

Datentypumwandlung

Die Umwandlung von Daten ist manchmal notwendig, um nicht in die Falle von Textwerten zu tappen, wo Zahlen erwartet werden:

Python

# Umwandlung des Datentyps der Spalte 'Alter' in eine Ganzzahl
df['Alter'] = df['Alter'].astype(int)

print(df)

3. Praktische Anwendung: Bereinigung eines realen Datensatzes

Lass uns versuchen, einen realen Datensatz für die Berichterstattung zu bereinigen und zu formatieren. Nehmen wir zum Beispiel eine hypothetische Excel-Datei mit Verkaufsinformationen.

Python

# Laden von Daten aus Excel
filename = "sales_data.xlsx"
df = pd.read_excel(filename)

# Entfernen von Zeilen mit fehlenden Werten
df = df.dropna()

# Entfernen von Duplikaten
df = df.drop_duplicates()

# Ausfüllen fehlender Werte in 'Verkäufe' mit dem Durchschnitt der Spalte
df['Verkäufe'] = df['Verkäufe'].fillna(df['Verkäufe'].mean())

# Datentypumwandlung
df['Produktcode'] = df['Produktcode'].astype(str)

# Speichern der formatierten Daten zurück in Excel
df.to_excel("cleaned_sales_data.xlsx", index=False)

Als Ergebnis erhalten wir eine saubere und gut formatierte Excel-Datei, die für die Analyse und Erstellung von Berichten bereit ist.

4. Typische Fehler bei der Datenbereinigung

Wie bei der Reparatur von Elektronik kann man bei der Arbeit mit Daten immer etwas falsch machen. Hier sind einige typische Fehler, die man vermeiden sollte:

Nützliche Informationen zusammen mit Duplikaten löschen. Manchmal können Duplikate auf einen Fehler in den Daten hinweisen, und es lohnt sich, deren Ursache zu analysieren. Datentypen nicht verwechseln. Manchmal scheint die Umwandlung in ein anderes Format einfach zu sein, aber sie kann zu Datenverlust führen, wenn nicht geprüft wird, ob diese Umwandlung zulässig ist.

Wenn du diese Tipps befolgst und die vorgeschlagenen Schritte ausführst, kannst du einfach und mit Freude mit Daten arbeiten, auch wenn sie anfangs wie ein Albtraum für Analysten aussehen. Und denk daran, Daten sollten wie dein Code sauber sein!

Kommentare
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION