Data Analysis with Pandas

Эффективный расчет средних значений столбцов в Pandas DataFrame

Spread the love

Pandas — мощная библиотека Python для обработки и анализа данных. Расчет среднего значения (средней) столбца в DataFrame Pandas — часто необходимая задача. В этой статье демонстрируются два эффективных метода для этого: использование метода df.mean() и метода df.describe().

Оглавление:

Расчет среднего значения с помощью df.mean()

Метод df.mean() предлагает прямой способ вычисления среднего значения всех числовых столбцов в вашем DataFrame. Для получения среднего значения конкретного столбца просто выберите столбец, используя квадратные или точечные скобки, а затем примените метод mean().

Вот пример:


import pandas as pd

# Пример DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Средний возраст, используя квадратные скобки
average_age = df['Age'].mean()
print(f"Средний возраст: {average_age}")

# Средний балл, используя точечную нотацию
average_score = df.Score.mean()
print(f"Средний балл: {average_score}")

Это выведет:


Средний возраст: 26.25
Средний балл: 85.75

Важно отметить, что df.mean() интеллектуально обрабатывает пропущенные значения (NaN), исключая их из вычисления. Однако, если ваш столбец содержит нечисловые данные, вы столкнетесь с ошибкой TypeError. Всегда убедитесь, что ваш столбец содержит только числовые значения, прежде чем использовать этот метод.

Анализ описательной статистики с помощью df.describe()

Метод df.describe() генерирует подробное резюме описательной статистики вашего DataFrame. Это включает среднее значение, количество, стандартное отклонение, минимум, максимум и квартили для каждого числового столбца. Хотя он предоставляет больше, чем просто среднее значение, это удобный способ получить среднее значение наряду с другими ценными статистическими показателями.

Используя тот же DataFrame:


import pandas as pd

# Пример DataFrame (такой же, как и раньше)
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Описательная статистика
summary_stats = df.describe()
print(summary_stats)

Это выведет таблицу, подобную этой:


         Age    Score
count   4.0   4.0000
mean   26.25  85.7500
std     3.50   6.2361
min    22.00  78.0000
25%    23.75  81.2500
50%    26.50  86.5000
75%    29.25  90.2500
max    30.00  92.0000

Среднее значение для ‘Age’ и ‘Score’ хорошо видно. Помните, что df.describe() обрабатывает только числовые столбцы.

В заключение, как df.mean(), так и df.describe() предоставляют эффективные способы вычисления средних значений столбцов в Pandas DataFrame. Выберите метод, который наилучшим образом соответствует вашим потребностям: df.mean() — только для среднего значения или df.describe() — для более широкого статистического обзора. Всегда обрабатывайте потенциальные ошибки типа данных, прежде чем применять эти методы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *