Pandas ist eine leistungsstarke Python-Bibliothek zur Datenmanipulation und -analyse. Die Berechnung des Durchschnitts (Mittelwerts) einer Spalte in einem Pandas DataFrame ist eine häufig benötigte Aufgabe. Dieser Artikel zeigt zwei effiziente Methoden, dies zu erreichen: die Verwendung der Methode df.mean()
und der Methode df.describe()
.
Inhaltsverzeichnis:
Berechnung des Mittelwerts mit df.mean()
Die Methode df.mean()
bietet eine direkte Möglichkeit, den Durchschnitt aller numerischen Spalten in Ihrem DataFrame zu berechnen. Um den Durchschnitt einer bestimmten Spalte zu erhalten, wählen Sie einfach die Spalte mit eckiger oder Punktnotation aus und wenden Sie dann die Methode mean()
an.
Hier ein Beispiel:
import pandas as pd
# Beispiel-DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Durchschnittsalter mit eckiger Klammernotation
average_age = df['Age'].mean()
print(f"Durchschnittsalter: {average_age}")
# Durchschnittspunktzahl mit Punktnotation
average_score = df.Score.mean()
print(f"Durchschnittliche Punktzahl: {average_score}")
Dies ergibt:
Durchschnittsalter: 26.25
Durchschnittliche Punktzahl: 85.75
Wichtig ist, dass df.mean()
fehlende Werte (NaN) intelligent behandelt, indem sie aus der Berechnung ausgeschlossen werden. Wenn Ihre Spalte jedoch nicht-numerische Daten enthält, erhalten Sie einen TypeError
. Stellen Sie immer sicher, dass Ihre Spalte nur numerische Werte enthält, bevor Sie diese Methode verwenden.
Deskriptive Statistik mit df.describe()
untersuchen
Die Methode df.describe()
generiert eine umfassende Zusammenfassung der deskriptiven Statistik Ihres DataFrames. Dies umfasst den Mittelwert, die Anzahl, die Standardabweichung, das Minimum, das Maximum und die Quartile für jede numerische Spalte. Sie liefert mehr als nur den Durchschnitt und ist eine praktische Möglichkeit, den Mittelwert zusammen mit anderen wertvollen statistischen Kennzahlen zu erhalten.
Mit dem gleichen DataFrame:
import pandas as pd
# Beispiel-DataFrame (wie zuvor)
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Deskriptive Statistik
summary_stats = df.describe()
print(summary_stats)
Dies gibt eine Tabelle wie diese aus:
Age Score
count 4.0 4.0000
mean 26.25 85.7500
std 3.50 6.2361
min 22.00 78.0000
25% 23.75 81.2500
50% 26.50 86.5000
75% 29.25 90.2500
max 30.00 92.0000
Der Mittelwert für „Alter“ und „Punktzahl“ ist deutlich sichtbar. Denken Sie daran, dass df.describe()
nur numerische Spalten verarbeitet.
Zusammenfassend lässt sich sagen, dass sowohl df.mean()
als auch df.describe()
effektive Möglichkeiten bieten, Spaltenmittelwerte in Pandas DataFrames zu berechnen. Wählen Sie die Methode, die Ihren Bedürfnissen am besten entspricht: df.mean()
nur für den Durchschnitt oder df.describe()
für eine umfassendere statistische Übersicht. Behandeln Sie immer potenzielle Datentypfehler, bevor Sie diese Methoden anwenden.