Data Analysis with Pandas

Calculando Médias de Colunas em DataFrames Pandas de Forma Eficiente

Spread the love

Pandas é uma poderosa biblioteca Python para manipulação e análise de dados. Calcular a média de uma coluna em um DataFrame Pandas é uma tarefa frequentemente necessária. Este artigo demonstra dois métodos eficientes para realizar isso: usando o método df.mean() e o método df.describe().

Sumário:

Calculando a Média com df.mean()

O método df.mean() oferece uma maneira direta de calcular a média de todas as colunas numéricas em seu DataFrame. Para obter a média de uma coluna específica, basta selecionar a coluna usando a notação de colchetes ou ponto e, em seguida, aplicar o método mean().

Aqui está um exemplo:


import pandas as pd

# DataFrame de exemplo
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
        'Idade': [25, 30, 22, 28],
        'Pontuação': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Média da idade usando notação de colchetes
media_idade = df['Idade'].mean()
print(f"Média da idade: {media_idade}")

# Média da pontuação usando notação de ponto
media_pontuacao = df.Pontuação.mean()
print(f"Média da pontuação: {media_pontuacao}")

Isso produzirá:


Média da idade: 26.25
Média da pontuação: 85.75

É importante destacar que df.mean() lida inteligentemente com valores ausentes (NaN), excluindo-os do cálculo. No entanto, se sua coluna contiver dados não numéricos, você encontrará um TypeError. Sempre certifique-se de que sua coluna contenha apenas valores numéricos antes de usar este método.

Explorando Estatísticas Descritivas com df.describe()

O método df.describe() gera um resumo abrangente das estatísticas descritivas do seu DataFrame. Isso inclui a média, contagem, desvio padrão, mínimo, máximo e quartis para cada coluna numérica. Embora forneça mais do que apenas a média, é uma maneira prática de obter a média juntamente com outras medidas estatísticas valiosas.

Usando o mesmo DataFrame:


import pandas as pd

# DataFrame de exemplo (mesmo que antes)
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
        'Idade': [25, 30, 22, 28],
        'Pontuação': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Estatísticas descritivas
estatisticas_resumo = df.describe()
print(estatisticas_resumo)

Isso produzirá uma tabela como esta:


         Idade  Pontuação
count    4.00      4.00
mean    26.25     85.75
std      3.50      6.24
min     22.00     78.00
25%     23.75     81.25
50%     26.50     86.50
75%     29.25     90.25
max     30.00     92.00

A média para ‘Idade’ e ‘Pontuação’ estão claramente visíveis. Lembre-se que df.describe() processa apenas colunas numéricas.

Em resumo, tanto df.mean() quanto df.describe() fornecem maneiras eficazes de calcular médias de colunas em DataFrames Pandas. Selecione o método que melhor se adapta às suas necessidades: df.mean() apenas para a média, ou df.describe() para uma visão geral estatística mais ampla. Sempre trate potenciais erros de tipo de dados antes de aplicar esses métodos.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *