Data Analysis with Pandas

Pandas DataFrame’lerinde Sütun Ortalamalarını Etkin Bir Şekilde Hesaplama

Spread the love

Pandas, veri manipülasyonu ve analizi için güçlü bir Python kütüphanesidir. Bir Pandas DataFrame’indeki bir sütunun ortalamasını (ortalamasını) hesaplamak sıklıkla ihtiyaç duyulan bir işlemdir. Bu makale bunu başarmak için iki verimli yöntemi göstermektedir: df.mean() metodunu ve df.describe() metodunu kullanarak.

İçindekiler Tablosu:

df.mean() ile Ortalamayı Hesaplama

df.mean() metodu, DataFrame’inizdeki tüm sayısal sütunların ortalamasını hesaplamanın doğrudan bir yolunu sunar. Belirli bir sütunun ortalamasını elde etmek için, sütunu köşeli parantez veya nokta gösterimi kullanarak seçin ve ardından mean() metodunu uygulayın.

İşte bir örnek:


import pandas as pd

# Örnek DataFrame
data = {'Ad': ['Alice', 'Bob', 'Charlie', 'David'],
        'Yaş': [25, 30, 22, 28],
        'Puan': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Köşeli parantez gösterimi kullanarak ortalama yaş
ortalama_yas = df['Yaş'].mean()
print(f"Ortalama yaş: {ortalama_yas}")

# Nokta gösterimi kullanarak ortalama puan
ortalama_puan = df.Puan.mean()
print(f"Ortalama puan: {ortalama_puan}")

Bu şu çıktıyı verecektir:


Ortalama yaş: 26.25
Ortalama puan: 85.75

Önemli olarak, df.mean() eksik değerleri (NaN) hesaplamadan hariç tutarak akıllıca işler. Ancak, sütununuz sayısal olmayan veriler içeriyorsa, bir TypeError ile karşılaşırsınız. Bu metodu kullanmadan önce sütununuzun yalnızca sayısal değerler içerdiğinden emin olun.

df.describe() ile Açıklayıcı İstatistikleri İnceleme

df.describe() metodu, DataFrame’inizin açıklayıcı istatistiklerinin kapsamlı bir özetini oluşturur. Bu, her sayısal sütun için ortalama, sayım, standart sapma, minimum, maksimum ve çeyreklikleri içerir. Sadece ortalamadan fazlasını sağlarken, ortalamayı diğer değerli istatistiksel ölçülerle birlikte elde etmenin kullanışlı bir yoludur.

Aynı DataFrame’i kullanarak:


import pandas as pd

# Örnek DataFrame (öncekiyle aynı)
data = {'Ad': ['Alice', 'Bob', 'Charlie', 'David'],
        'Yaş': [25, 30, 22, 28],
        'Puan': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# Açıklayıcı istatistikler
ozet_istatistikler = df.describe()
print(ozet_istatistikler)

Bu, şu gibi bir tablo çıkaracaktır:


         Yaş    Puan
count   4.0   4.0000
mean   26.25  85.7500
std     3.50   6.2361
min    22.00  78.0000
25%    23.75  81.2500
50%    26.50  86.5000
75%    29.25  90.2500
max    30.00  92.0000

‘Yaş’ ve ‘Puan’ için ortalama açıkça görülebilir. df.describe()‘ın yalnızca sayısal sütunları işlediğini unutmayın.

Özetle, hem df.mean() hem de df.describe(), Pandas DataFrame’lerinde sütun ortalamalarını hesaplamak için etkili yollar sağlar. İhtiyaçlarınıza en uygun yöntemi seçin: sadece ortalama için df.mean() veya daha geniş bir istatistiksel genel bakış için df.describe(). Bu yöntemleri uygulamadan önce olası veri tipi hatalarını her zaman ele alın.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir