Data Analysis with Pandas

حساب متوسطات الأعمدة بكفاءة في جداول بيانات Pandas

Spread the love

Pandas هي مكتبة قوية في بايثون لمعالجة البيانات وتحليلها. يعد حساب المتوسط (الوسط الحسابي) لعمود في DataFrame من Pandas مهمة متكررة. توضح هذه المقالة طريقتين فعالتين لتحقيق ذلك: باستخدام طريقة df.mean() وطريقة df.describe().

جدول المحتويات:

حساب المتوسط باستخدام df.mean()

توفر طريقة df.mean() طريقة مباشرة لحساب متوسط جميع الأعمدة العددية في DataFrame الخاص بك. للحصول على متوسط عمود محدد، ما عليك سوى تحديد العمود باستخدام الترميز بين قوسين أو الترميز النقطي، ثم تطبيق طريقة mean().

فيما يلي مثال:


import pandas as pd

# DataFrame مثال
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# متوسط العمر باستخدام الترميز بين قوسين
average_age = df['Age'].mean()
print(f"متوسط العمر: {average_age}")

# متوسط الدرجة باستخدام الترميز النقطي
average_score = df.Score.mean()
print(f"متوسط الدرجة: {average_score}")

سيؤدي هذا إلى:


متوسط العمر: 26.25
متوسط الدرجة: 85.75

من المهم أن df.mean() تتعامل بذكاء مع القيم المفقودة (NaN) باستبعادها من الحساب. ومع ذلك، إذا كان العمود يحتوي على بيانات غير عددية، فستواجه خطأ TypeError. تأكد دائمًا من أن عمودك يحتوي على قيم عددية فقط قبل استخدام هذه الطريقة.

استكشاف الإحصائيات الوصفية باستخدام df.describe()

تولّد طريقة df.describe() ملخصًا شاملاً للإحصائيات الوصفية لـ DataFrame الخاص بك. وهذا يشمل المتوسط، والعدد، والانحراف المعياري، والحد الأدنى، والحد الأقصى، والربيعيات لكل عمود رقمي. على الرغم من أنها توفر أكثر من مجرد المتوسط، إلا أنها طريقة مفيدة للحصول على المتوسط إلى جانب مقاييس إحصائية قيّمة أخرى.

باستخدام نفس DataFrame:


import pandas as pd

# DataFrame مثال (مثل السابق)
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 22, 28],
        'Score': [85, 92, 78, 88]}
df = pd.DataFrame(data)

# الإحصائيات الوصفية
summary_stats = df.describe()
print(summary_stats)

سيُخرج هذا جدولًا مثل هذا:


         Age    Score
count   4.0   4.0000
mean   26.25  85.7500
std     3.50   6.2361
min    22.00  78.0000
25%    23.75  81.2500
50%    26.50  86.5000
75%    29.25  90.2500
max    30.00  92.0000

يظهر المتوسط ​​لـ “العمر” و”الدرجة” بوضوح. تذكر أن df.describe() تعالج فقط الأعمدة العددية.

باختصار، توفر كل من df.mean() و df.describe() طرقًا فعالة لحساب متوسطات الأعمدة في DataFrames من Pandas. اختر الطريقة التي تناسب احتياجاتك بشكل أفضل: df.mean() فقط للمتوسط، أو df.describe() للحصول على نظرة عامة إحصائية أوسع. تعامل دائمًا مع أخطاء نوع البيانات المحتملة قبل تطبيق هذه الطرق.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *