Maîtriser Pandas : Somme des colonnes de DataFrame efficacement

juin 17, 2025 - By admin

Spread the love

Pandas est une puissante librairie Python pour la manipulation et l’analyse de données, et le calcul des sommes des valeurs de colonne est une tâche fréquemment utilisée. Cet article explore différentes méthodes pour sommer efficacement les données dans les DataFrames Pandas, couvrant la sommation basique, les sommes cumulées avec le groupement, et la sommation conditionnelle.

Table des matières :

Sommation basique des colonnes d’un DataFrame Pandas
Somme cumulée avec groupby()
Sommation conditionnelle basée sur les valeurs d’autres colonnes

1. Sommation basique des colonnes d’un DataFrame Pandas

La manière la plus simple de sommer une colonne d’un DataFrame Pandas est d’utiliser la méthode .sum(). Cela calcule directement la somme de toutes les valeurs de la colonne spécifiée. Les valeurs non numériques sont ignorées.


import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10],
        'C': [11, 12, 13, 14, 15]}
df = pd.DataFrame(data)

# Somme de la colonne 'A'
sum_A = df['A'].sum()
print(f"Somme de la colonne A : {sum_A}")  # Output : Somme de la colonne A : 15

# Somme de la colonne 'B'
sum_B = df['B'].sum()
print(f"Somme de la colonne B : {sum_B}")  # Output : Somme de la colonne B : 40

# Somme de toutes les colonnes numériques
sum_all = df.sum()
print(f"Somme de toutes les colonnes numériques :n{sum_all}")

2. Somme cumulée avec `groupby()`

Calculer les sommes cumulées au sein de groupes nécessite la méthode groupby() combinée avec .cumsum(). Cela permet une agrégation efficace à travers différentes catégories.


import pandas as pd

data = {'Group': ['X', 'X', 'Y', 'Y', 'Y'],
        'Value': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Groupement par 'Group' et calcul de la somme cumulée de 'Value'
cumulative_sum = df.groupby('Group')['Value'].cumsum()
df['Somme cumulée'] = cumulative_sum
print(df)

Cela affichera un DataFrame avec une colonne ‘Somme cumulée’ montrant la somme cumulée pour chaque groupe.

3. Sommation conditionnelle basée sur les valeurs d’autres colonnes

La sommation conditionnelle vous permet de sommer des valeurs en fonction de conditions appliquées à d’autres colonnes. L’indexation booléenne et la méthode .sum() permettent d’y parvenir.


import pandas as pd

data = {'Category': ['A', 'B', 'A', 'B', 'A'],
        'Sales': [100, 150, 200, 250, 300]}
df = pd.DataFrame(data)

# Somme de 'Sales' où 'Category' est 'A'
sum_A = df[df['Category'] == 'A']['Sales'].sum()
print(f"Somme des ventes pour la catégorie A : {sum_A}")  # Output : Somme des ventes pour la catégorie A : 600

# Somme de 'Sales' où 'Sales' est supérieur à 200
sum_greater_200 = df[df['Sales'] > 200]['Sales'].sum()
print(f"Somme des ventes supérieures à 200 : {sum_greater_200}") # Output : Somme des ventes supérieures à 200 : 550

Ceci démontre le filtrage du DataFrame avant la sommation pour des agrégations conditionnelles puissantes. N’oubliez pas d’adapter ces techniques à vos données et exigences spécifiques. Pandas fournit de nombreux outils pour une analyse de données efficace.

Table des matières :

1. Sommation basique des colonnes d’un DataFrame Pandas

2. Somme cumulée avec groupby()

3. Sommation conditionnelle basée sur les valeurs d’autres colonnes

Publications similaires :

Laisser un commentaire Annuler la réponse

2. Somme cumulée avec `groupby()`