Data Analysis with Pandas

Calculer efficacement les moyennes de colonnes dans les DataFrames Pandas

Spread the love

Pandas est une puissante bibliothèque Python pour la manipulation et l’analyse de données. Le calcul de la moyenne d’une colonne dans un DataFrame Pandas est une tâche fréquente. Cet article présente deux méthodes efficaces pour y parvenir : l’utilisation de la méthode df.mean() et de la méthode df.describe().

Table des matières :

Calculer la moyenne avec df.mean()

La méthode df.mean() offre un moyen direct de calculer la moyenne de toutes les colonnes numériques de votre DataFrame. Pour obtenir la moyenne d’une colonne spécifique, il suffit de sélectionner la colonne à l’aide de la notation entre crochets ou par points, puis d’appliquer la méthode mean().

Voici un exemple :


import pandas as pd

# DataFrame d'exemple
data = {'Nom': ['Alice', 'Bob', 'Charlie', 'David'],
        'Âge': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Âge moyen utilisant la notation entre crochets
age_moyen = df['Âge'].mean()
print(f"Âge moyen : {age_moyen}")

# Score moyen utilisant la notation par points
score_moyen = df.Score.mean()
print(f"Score moyen : {score_moyen}")

Cela produira :


Âge moyen : 26.25
Score moyen : 85.75

Il est important de noter que df.mean() gère intelligemment les valeurs manquantes (NaN) en les excluant du calcul. Cependant, si votre colonne contient des données non numériques, vous rencontrerez une TypeError. Assurez-vous toujours que votre colonne contient uniquement des valeurs numériques avant d’utiliser cette méthode.

Explorer les statistiques descriptives avec df.describe()

La méthode df.describe() génère un résumé complet des statistiques descriptives de votre DataFrame. Cela inclut la moyenne, le nombre, l’écart type, le minimum, le maximum et les quartiles pour chaque colonne numérique. Bien qu’elle fournisse plus que la simple moyenne, c’est un moyen pratique d’obtenir la moyenne ainsi que d’autres mesures statistiques précieuses.

En utilisant le même DataFrame :


import pandas as pd

# DataFrame d'exemple (identique au précédent)
data = {'Nom': ['Alice', 'Bob', 'Charlie', 'David'],
        'Âge': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Statistiques descriptives
statistiques_resumées = df.describe()
print(statistiques_resumées)

Cela affichera un tableau comme celui-ci :


         Âge    Score
count   4.0   4.0000
mean   26.25  85.7500
std     3.50   6.2361
min    22.00  78.0000
25%    23.75  81.2500
50%    26.50  86.5000
75%    29.25  90.2500
max    30.00  92.0000

La moyenne de « Âge » et de « Score » est clairement visible. N’oubliez pas que df.describe() ne traite que les colonnes numériques.

En résumé, df.mean() et df.describe() offrent des moyens efficaces de calculer les moyennes des colonnes dans les DataFrames Pandas. Choisissez la méthode qui convient le mieux à vos besoins : df.mean() pour la seule moyenne, ou df.describe() pour un aperçu statistique plus large. Gérez toujours les erreurs potentielles de type de données avant d’appliquer ces méthodes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *