Pandas é uma poderosa biblioteca Python para manipulação e análise de dados. Calcular a média de uma coluna em um DataFrame Pandas é uma tarefa frequentemente necessária. Este artigo demonstra dois métodos eficientes para realizar isso: usando o método df.mean()
e o método df.describe()
.
Sumário:
Calculando a Média com df.mean()
O método df.mean()
oferece uma maneira direta de calcular a média de todas as colunas numéricas em seu DataFrame. Para obter a média de uma coluna específica, basta selecionar a coluna usando a notação de colchetes ou ponto e, em seguida, aplicar o método mean()
.
Aqui está um exemplo:
import pandas as pd
# DataFrame de exemplo
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
'Idade': [25, 30, 22, 28],
'Pontuação': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Média da idade usando notação de colchetes
media_idade = df['Idade'].mean()
print(f"Média da idade: {media_idade}")
# Média da pontuação usando notação de ponto
media_pontuacao = df.Pontuação.mean()
print(f"Média da pontuação: {media_pontuacao}")
Isso produzirá:
Média da idade: 26.25
Média da pontuação: 85.75
É importante destacar que df.mean()
lida inteligentemente com valores ausentes (NaN), excluindo-os do cálculo. No entanto, se sua coluna contiver dados não numéricos, você encontrará um TypeError
. Sempre certifique-se de que sua coluna contenha apenas valores numéricos antes de usar este método.
Explorando Estatísticas Descritivas com df.describe()
O método df.describe()
gera um resumo abrangente das estatísticas descritivas do seu DataFrame. Isso inclui a média, contagem, desvio padrão, mínimo, máximo e quartis para cada coluna numérica. Embora forneça mais do que apenas a média, é uma maneira prática de obter a média juntamente com outras medidas estatísticas valiosas.
Usando o mesmo DataFrame:
import pandas as pd
# DataFrame de exemplo (mesmo que antes)
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
'Idade': [25, 30, 22, 28],
'Pontuação': [85, 92, 78, 88]}
df = pd.DataFrame(data)
# Estatísticas descritivas
estatisticas_resumo = df.describe()
print(estatisticas_resumo)
Isso produzirá uma tabela como esta:
Idade Pontuação
count 4.00 4.00
mean 26.25 85.75
std 3.50 6.24
min 22.00 78.00
25% 23.75 81.25
50% 26.50 86.50
75% 29.25 90.25
max 30.00 92.00
A média para ‘Idade’ e ‘Pontuação’ estão claramente visíveis. Lembre-se que df.describe()
processa apenas colunas numéricas.
Em resumo, tanto df.mean()
quanto df.describe()
fornecem maneiras eficazes de calcular médias de colunas em DataFrames Pandas. Selecione o método que melhor se adapta às suas necessidades: df.mean()
apenas para a média, ou df.describe()
para uma visão geral estatística mais ampla. Sempre trate potenciais erros de tipo de dados antes de aplicar esses métodos.