Data Analysis with Pandas

Effizientes Berechnen von Spaltenmittelwerten in Pandas DataFrames

Spread the love

Pandas ist eine leistungsstarke Python-Bibliothek zur Datenmanipulation und -analyse. Die Berechnung des Durchschnitts (Mittelwerts) einer Spalte in einem Pandas DataFrame ist eine häufig benötigte Aufgabe. Dieser Artikel zeigt zwei effiziente Methoden, dies zu erreichen: die Verwendung der Methode df.mean() und der Methode df.describe().

Inhaltsverzeichnis:

Berechnung des Mittelwerts mit df.mean()

Die Methode df.mean() bietet eine direkte Möglichkeit, den Durchschnitt aller numerischen Spalten in Ihrem DataFrame zu berechnen. Um den Durchschnitt einer bestimmten Spalte zu erhalten, wählen Sie einfach die Spalte mit eckiger oder Punktnotation aus und wenden Sie dann die Methode mean() an.

Hier ein Beispiel:


import pandas as pd

# Beispiel-DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Durchschnittsalter mit eckiger Klammernotation
average_age = df['Age'].mean()
print(f"Durchschnittsalter: {average_age}")

# Durchschnittspunktzahl mit Punktnotation
average_score = df.Score.mean()
print(f"Durchschnittliche Punktzahl: {average_score}")

Dies ergibt:


Durchschnittsalter: 26.25
Durchschnittliche Punktzahl: 85.75

Wichtig ist, dass df.mean() fehlende Werte (NaN) intelligent behandelt, indem sie aus der Berechnung ausgeschlossen werden. Wenn Ihre Spalte jedoch nicht-numerische Daten enthält, erhalten Sie einen TypeError. Stellen Sie immer sicher, dass Ihre Spalte nur numerische Werte enthält, bevor Sie diese Methode verwenden.

Deskriptive Statistik mit df.describe() untersuchen

Die Methode df.describe() generiert eine umfassende Zusammenfassung der deskriptiven Statistik Ihres DataFrames. Dies umfasst den Mittelwert, die Anzahl, die Standardabweichung, das Minimum, das Maximum und die Quartile für jede numerische Spalte. Sie liefert mehr als nur den Durchschnitt und ist eine praktische Möglichkeit, den Mittelwert zusammen mit anderen wertvollen statistischen Kennzahlen zu erhalten.

Mit dem gleichen DataFrame:


import pandas as pd

# Beispiel-DataFrame (wie zuvor)
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Deskriptive Statistik
summary_stats = df.describe()
print(summary_stats)

Dies gibt eine Tabelle wie diese aus:


         Age    Score
count   4.0   4.0000
mean   26.25  85.7500
std     3.50   6.2361
min    22.00  78.0000
25%    23.75  81.2500
50%    26.50  86.5000
75%    29.25  90.2500
max    30.00  92.0000

Der Mittelwert für „Alter“ und „Punktzahl“ ist deutlich sichtbar. Denken Sie daran, dass df.describe() nur numerische Spalten verarbeitet.

Zusammenfassend lässt sich sagen, dass sowohl df.mean() als auch df.describe() effektive Möglichkeiten bieten, Spaltenmittelwerte in Pandas DataFrames zu berechnen. Wählen Sie die Methode, die Ihren Bedürfnissen am besten entspricht: df.mean() nur für den Durchschnitt oder df.describe() für eine umfassendere statistische Übersicht. Behandeln Sie immer potenzielle Datentypfehler, bevor Sie diese Methoden anwenden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert