Pandas — мощная библиотека Python для обработки и анализа данных. Расчет среднего значения (средней) столбца в DataFrame Pandas — часто необходимая задача. В этой статье демонстрируются два эффективных метода для этого: использование метода df.mean()
и метода df.describe()
.
Оглавление:
Расчет среднего значения с помощью df.mean()
Метод df.mean()
предлагает прямой способ вычисления среднего значения всех числовых столбцов в вашем DataFrame. Для получения среднего значения конкретного столбца просто выберите столбец, используя квадратные или точечные скобки, а затем примените метод mean()
.
Вот пример:
import pandas as pd
# Пример DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Средний возраст, используя квадратные скобки
average_age = df['Age'].mean()
print(f"Средний возраст: {average_age}")
# Средний балл, используя точечную нотацию
average_score = df.Score.mean()
print(f"Средний балл: {average_score}")
Это выведет:
Средний возраст: 26.25
Средний балл: 85.75
Важно отметить, что df.mean()
интеллектуально обрабатывает пропущенные значения (NaN), исключая их из вычисления. Однако, если ваш столбец содержит нечисловые данные, вы столкнетесь с ошибкой TypeError
. Всегда убедитесь, что ваш столбец содержит только числовые значения, прежде чем использовать этот метод.
Анализ описательной статистики с помощью df.describe()
Метод df.describe()
генерирует подробное резюме описательной статистики вашего DataFrame. Это включает среднее значение, количество, стандартное отклонение, минимум, максимум и квартили для каждого числового столбца. Хотя он предоставляет больше, чем просто среднее значение, это удобный способ получить среднее значение наряду с другими ценными статистическими показателями.
Используя тот же DataFrame:
import pandas as pd
# Пример DataFrame (такой же, как и раньше)
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Описательная статистика
summary_stats = df.describe()
print(summary_stats)
Это выведет таблицу, подобную этой:
Age Score
count 4.0 4.0000
mean 26.25 85.7500
std 3.50 6.2361
min 22.00 78.0000
25% 23.75 81.2500
50% 26.50 86.5000
75% 29.25 90.2500
max 30.00 92.0000
Среднее значение для ‘Age’ и ‘Score’ хорошо видно. Помните, что df.describe()
обрабатывает только числовые столбцы.
В заключение, как df.mean()
, так и df.describe()
предоставляют эффективные способы вычисления средних значений столбцов в Pandas DataFrame. Выберите метод, который наилучшим образом соответствует вашим потребностям: df.mean()
— только для среднего значения или df.describe()
— для более широкого статистического обзора. Всегда обрабатывайте потенциальные ошибки типа данных, прежде чем применять эти методы.