CodeGym /Cours /Python SELF FR /Formatage des données et nettoyage des tableaux des infor...

Formatage des données et nettoyage des tableaux des informations inutiles

Python SELF FR
Niveau 28 , Leçon 2
Disponible

1. Pourquoi est-ce nécessaire ?

Imagine que tu es un ingénieur dans une usine de données. Tu dois analyser et organiser la matière première (les données) pour obtenir un produit fini (des insights, des rapports). Sans nettoyage ni formatage, tes données restent comme un tas de pièces éparpillées, difficiles à assembler.

Des données propres et bien formatées, ce n'est pas juste une question d'esthétique et de lisibilité, mais c'est une condition essentielle pour une analyse correcte et la création de modèles. Des données mal traitées peuvent conduire à des conclusions erronées et personne n’a envie de se retrouver à la fin de la journée en réalisant qu’on a calculé l’âge moyen des employés en fragments de données au lieu d’années.

Les principales tâches du formatage

Avant de plonger dans le code, voyons quels problèmes nous cherchons à éviter et à résoudre grâce au formatage :

  • Suppression des lignes et colonnes vides : Ils sont comme des poches vides – inutiles mais peuvent induire en erreur.
  • Élimination des doublons : Les enregistrements répétitifs ajoutent du bruit à nos données.
  • Remplissage des valeurs manquantes : C’est comme des trous dans un fromage qu’il vaut parfois mieux remplir avec quelque chose de savoureux.
  • Conversion des types de données : Il est important de s'assurer que l'âge est un nombre, pas du texte. Histoire de ne pas confondre l'âge réel avec "25 ans d'expérience" écrit entre guillemets.

2. Outils pour le nettoyage et le formatage des données

Maintenant qu’on sait pourquoi c’est nécessaire, regardons les outils qui vont nous aider, comme un couteau suisse lors d’une randonnée :

  • Suppression des valeurs manquantes : dropna()
  • Gestion des doublons : duplicated() et drop_duplicates()
  • Remplissage des manques : fillna()
  • Conversion des types de données : astype()

Suppression des valeurs manquantes

Les valeurs manquantes arrivent toujours au mauvais moment. Avec dropna(), on peut les supprimer comme de vieilles chaussettes inutiles. Regardons un exemple :

Python

import pandas as pd

# Créons un DataFrame avec des valeurs manquantes
data = {'Nom': ['Anna', 'Ivan', None, 'Maria'],
        'Âge': [29, None, 34, 23],
        'Ville': ['Moscou', 'Saint-Pétersbourg', 'Novossibirsk', None]}

df = pd.DataFrame(data)

# Suppression des lignes avec des NaN
cleaned_df = df.dropna()

print(cleaned_df)

Ce code supprimera toutes les lignes contenant au moins une valeur manquante.

Gestion des doublons

Parfois, tes données contiennent des doublons, comme dans le jeu "Trouvez les différences" où il n’y a aucune différence. On peut éliminer ces enregistrements avec drop_duplicates().

Python

# Créons un DataFrame avec des doublons
data = {'Nom': ['Anna', 'Ivan', 'Anna', 'Maria'],
        'Âge': [29, 34, 29, 23]}

df = pd.DataFrame(data)

# Suppression des doublons
unique_df = df.drop_duplicates()

print(unique_df)

Remplissage des manques

Les valeurs manquantes peuvent être remplacées de multiples façons, par exemple une moyenne ou une valeur fixe. La méthode fillna() peut t’aider ici :

Python

# Remplissons les vides dans 'Âge' avec la moyenne de la colonne
df['Âge'] = df['Âge'].fillna(df['Âge'].mean())

print(df)

Conversion des types de données

Parfois, la conversion des données est nécessaire pour éviter les pièges des valeurs textuelles là où des nombres sont attendus :

Python

# Convertissons le type de données de la colonne 'Âge' en entier
df['Âge'] = df['Âge'].astype(int)

print(df)

3. Application pratique : nettoyage d’un jeu de données réel

Essayons de nettoyer et de formater un jeu de données réel pour un rapport. Prenons, par exemple, un fichier Excel hypothétique contenant des informations sur les ventes.

Python

# Chargement des données d’Excel
filename = "sales_data.xlsx"
df = pd.read_excel(filename)

# Suppression des lignes avec des valeurs manquantes
df = df.dropna()

# Suppression des doublons
df = df.drop_duplicates()

# Remplissage des manques dans 'Ventes' par la moyenne de la colonne
df['Ventes'] = df['Ventes'].fillna(df['Ventes'].mean())

# Conversion des types de données
df['Code produit'] = df['Code produit'].astype(str)

# Sauvegarde des données nettoyées dans Excel
df.to_excel("cleaned_sales_data.xlsx", index=False)

En résultat, nous aurons un joli fichier Excel propre, prêt pour l’analyse et la création de rapports.

4. Erreurs typiques lors du nettoyage des données

Comme pour réparer de l’électronique, il est facile de faire des erreurs avec les données. Voici quelques erreurs courantes à éviter :

Supprimer des informations utiles avec les doublons. Parfois, les doublons peuvent signaler une erreur et méritent d’être analysés. Confondre les types de données. La conversion en un autre format peut parfois paraître simple, mais peut entraîner une perte de données si elle n’est pas vérifiée correctement.

En suivant ces conseils et les étapes proposées, tu pourras travailler avec les données facilement et avec plaisir, même si au départ elles ressemblent à un cauchemar d’analyste. Et souviens-toi : les données, comme ton code, doivent être propres !

Commentaires
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION