Data Wrangling

Pandas DataFrames में NaN मानों का कुशलतापूर्वक पता लगाना

Spread the love

किसी भी डेटा विश्लेषण कार्यप्रवाह में NaN (नॉट अ नंबर) मानों के रूप में प्रदर्शित लापता डेटा से निपटना एक महत्वपूर्ण कदम है। पांडा, डेटा हेरफेर के लिए एक शक्तिशाली पायथन लाइब्रेरी, डेटाफ्रेम के भीतर NaNs का पता लगाने और उन्हें संभालने के लिए कुशल तरीके प्रदान करता है। यह लेख दो प्राथमिक दृष्टिकोणों का पता लगाएगा: isnull() और isna(), व्यावहारिक उदाहरणों के साथ उनके उपयोग का प्रदर्शन करेगा।

विषयसूची

pandas.DataFrame.isnull() विधि

isnull() विधि NaN मानों की पहचान करने के लिए एक मौलिक उपकरण है। यह एक पांडा डेटाफ्रेम पर संचालित होता है, जो समान आकार का एक बूलियन डेटाफ्रेम देता है। एक True मान NaN की उपस्थिति को इंगित करता है, जबकि False एक मान्य मान को इंगित करता है।


import pandas as pd
import numpy as np

# नमूना डेटाफ्रेम
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8],
        'C': [9, 10, 11, 12]}
df = pd.DataFrame(data)

# NaNs का पता लगाएँ
isnull_df = df.isnull()
print(isnull_df)

यह एक बूलियन डेटाफ्रेम आउटपुट करेगा जो NaN स्थानों को उजागर करता है।

संपूर्ण डेटाफ्रेम के भीतर किसी भी NaN के अस्तित्व की जांच करने के लिए, isnull() को any() विधि के साथ मिलाएँ:


has_nan = df.isnull().any().any()
print(f"क्या डेटाफ्रेम में कोई NaN मान है? {has_nan}")

pandas.DataFrame.isna() विधि

isna() विधि कार्यात्मक रूप से isnull() के समान है। यह एक ही उद्देश्य को पूरा करता है – NaN मानों की पहचान करना और एक बूलियन डेटाफ्रेम लौटाना। दोनों के बीच चुनाव काफी हद तक व्यक्तिगत पसंद का मामला है; कई लोगों को isna() अधिक पठनीय लगता है।


isna_df = df.isna()
print(isna_df)

विशिष्ट स्तंभों में NaNs का पता लगाना

अक्सर, आपको केवल विशिष्ट स्तंभों के भीतर NaNs की जांच करने की आवश्यकता होगी। यह किसी विशिष्ट कॉलम पर isnull() या isna() विधि को लागू करके प्राप्त किया जा सकता है:


has_nan_in_column_A = df['A'].isna().any()
print(f"क्या कॉलम 'A' में कोई NaN मान है? {has_nan_in_column_A}")

NaN मानों को संभालना

एक बार NaNs का पता चलने के बाद, उन्हें संभालने के लिए विभिन्न रणनीतियों को नियोजित किया जा सकता है। सामान्य दृष्टिकोणों में शामिल हैं:

  • हटाना: dropna() का उपयोग करके NaNs युक्त पंक्तियों या स्तंभों को छोड़ना।
  • प्रतिस्थापन: fillna() का उपयोग करके NaNs को अनुमानित मानों (जैसे, माध्य, माध्यिका या एक स्थिरांक) से बदलना।

सर्वोत्तम दृष्टिकोण आपके डेटा की प्रकृति और विश्लेषण लक्ष्यों पर निर्भर करता है।

संक्षेप में, isnull() और isna() दोनों पांडा डेटाफ्रेम में लापता डेटा का प्रभावी ढंग से पता लगाने और प्रबंधित करने के लिए मूल्यवान उपकरण हैं। डेटा सफाई तकनीकों के साथ इन विधियों को मिलाने से आपके विश्लेषणों में डेटा की गुणवत्ता और सटीकता सुनिश्चित होती है।

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *